切换到宽版

 找回密码
 注册

微信登录,快人一步

QQ登录

只需一步,快速开始

查看: 1540|回复: 13

[转帖] 论文中统计描述要注意的诸多细节,听听杂志主编怎么说!

  [复制链接]
发表于 2017-7-10 14:37:08 | 显示全部楼层 |阅读模式 IP:浙江宁波
论文中统计描述要注意的诸多细节,听听杂志主编怎么说!
龚志忠 医咖会

科研论文是呈现研究成果的一种最好的表现形式,其中数据分析的结果则是论文中最为核心的一部分。每当我们辛辛苦苦写好文章,自信满满投稿后,有时候却连Editor初审的第一关都过不了,甚至惨遭Editor“秒拒”。 Editor虽然没有研究的原始数据,但是他们都有一双火眼金睛,常能发现很多平时我们没有注意到的错误和问题。

2017年4月,The International Journal of Occupational and Environmental Medicine(The IJOEM)杂志的主编Farrokh Habibzadeh教授发表了一篇名为《Statistical Data Editing in Scientific Articles》的文章[1],针对在论文中进行数据编辑时常犯的错误和需要注意的地方,进行了详细的说明,让我们来一起看看Editor怎么说。
一、统计方法描述
一般情况下,在论文方法(Method)的最后一部分,要求作者对统计分析方法进行详细的描述。通常包括几个内容:

1、数据分析所使用的软件及其版本、所属公司、公司所属地等信息。例如:The data were analysed by SPSS version 24.0 for Windows (SPSS Inc., Chicago, IL, USA).

2、数据结果的呈现和描述形式。例如:Continuous variables with normal distribution were presents as mean±standard deviation (SD); non-normal variables were reported as median (interquartile range).

3、数据分析时所用到的统计检验方法。例如:Mean of two continuous normally distributed variables were compared by independent samples Student's test.

4、设定的假设检验水准。例如:A value of P<0.05 was considered significant.

注意:在统计方法描述部分,有些作者不管什么类型的研究论文,都复制粘贴使用同一个固定的描述模板,这样很容易被Editor发现,统计方法必须要根据自己数据的实际情况,以及真正所使用到的统计方法来进行介绍,万不可张冠李戴。
二、数据的精确度
有些作者在结果描述中太过于追求数据的精度,例如一篇文章中这样描述:The mean work experience of studied participants was 20.365 (SD, 4.35) years。

其中有2个问题:首先,均数和标准差的小数位数在呈现时没有保持一致;其次,工作经验的均值精确到了3位小数,这就意味着在对工作经验这个变量进行调查时,精确到了以“小时”为单位,而在实际的调查过程中一般最多精确到以“月”为单位,因此建议此处的描述修改为20.4 (SD, 4.4) years。

一般情况下,在描述均值、标准差、中位数、四分位间距等指标时,建议小数位数不要超过原始测量数据的小数位数

对于百分位数的描述,当分母小于100时,一般建议百分位数不保留小数,而当分母小于20时,就不再建议使用百分比来进行描述了。例如:Of 15 patients studied, 26.67% presented with fever,此处百分位数计算的分母为15<20,因此建议修改为:4 of 15 patients presented with fever。

但有时在不易获得分母具体数值的情况下,可以根据百分数和绝对数的大小来进行辅助判断。当百分数大于绝对数时,提示分母小于100,此时百分位数可以不用保留小数。例如:“31 (42.47%) patients……”,此时百分数42.47%大于绝对数31,提示分母小于100 (实际上分母为73),则此处建议修改为:“31 (42%)patients……”。
三、常用的统计描述指标
对于正态分布的资料,一般采用均值 (Mean) 和标准差 (Standard Deviation, SD) 来描述数据的集中趋势和离散情况,而对于非正态分布的资料,常用中位数 (Median) 和四分位间距 (Interquartile Range, IQR) 来描述数据的集中趋势和离散情况,这就要求要首先对数据资料的分布特点进行检验。

但是在多数论文中,作者并未直接给出正态性检验的结果。在无法获得原始数据的情况下,我们可以根据标准差和均值的大小进行初步判断。若标准差超过均值的一半,则提示数据很有可能是非正态分布,可以参考前期推送的有关数据正态性检验的内容进行学习。

由于标准误 (Standard Error of Mean, SEM) 比标准差小,有些作者为了掩盖数据非正态分布的特点,错误地将标准误作为描述数据离散趋势的一个指标。但实际上,标准误反映的是均数抽样误差的大小,而非样本资料的离散情况,此时用标准误来衡量数据资料的离散趋势是不正确的。

95%置信区间(95%CI),可以用均值±1.96*标准误来进行计算。一种情况,当报告某种疾病的患病率时,建议同时报告其95%CI。例如:26 of 300 studied participants had brucellosis translating to a prevalence of 8.7% (95%CI, 5.5% to 11.9%)。根据95%CI的计算公式,数据资料的均值约等于95%CI上、下限的均值,如8.7%=(5.5%+11.9%)/2, 以此来帮助判断结果是否一致。

另一种情况,多见于描述RR (Relative Risk) 值或者OR (Odds Ratio) 值时,需要报告其95%CI。例如:Smoking was associated with a higher incidence of lung cancer (OR, 2.6; 95%CI, 1.3 to 5.2)。此时RR或OR值的平方等于95%CI上、下限的乘积,如2.62=1.3*5.2,以此来帮助判断结果是否一致。
四、诊断试验的结果报告
对于诊断试验,通常在论文中需要描述的指标包括灵敏度、特异度、阳性预测值、阴性预测值及其95%CI等。当使用ROC (Receive Operating Characteristic) 曲线进行分析时,则还需要报告曲线下面积及其95%CI、截断值 (cut-off point)等信息。
五、测量单位
准确描述测量单位也是非常重要的。例如常常在文章中见到类似的描述:Serum cholesterol levels was 5.22。缺失相应的单位“mmol/L”,这种遗漏的情况在表格及图的坐标轴中也经常出现。大多数学术杂志都推荐使用国际单位(SI),因此当某个指标有不同的计量单位时,也建议统一换算为国际单位。
六、P
P值的描述在论文中也常出现各种问题,一些杂志仅要求在描述P值时给出其判断标准,例如:P<0.05, 或non-significant,而多数杂志则要求在论文中报告准确的P值。一般情况下描述P值时建议不要超过3位小数,例如P=0.0123,可修改为P=0.012。但有时P值很小,例如P=0.0000123,只若保留三位小数,即P=0.000,此时建议将其描述为P<0.001。值得注意的是,只有当进行假设检验时才需要提供P值。

此外,当能够同时获取95%CI和P值时,一般建议仅报告95%CI即可,因为P值仅提示假设检验有无统计学显著性,而95%CI还可以直观的显示效应值的范围。例如:Smoking was significantly associated with a higher incidence of lung cancer (OR, 2.6; P=0.04),建议修改为:Smoking was associated with a higher incidence of lung cancer (OR, 2.6; 95%CI, 1.3 to 5.2)。

对于P值的解释一定要谨慎,在设定检验水平α为0.05的情况下,特别是当P值在临界值附近时,例如P=0.049时认为有统计学显著性,而P=0.051则认为无统计学显著性,下结论的时候要谨防产生I类错误和II类错误,有可能会做出假阳性或假阴性的结论(参考前期推送的有关介绍I类错误和II类错误的内容)。

通常把这种情况描述为部分显著性(partially significant)或边缘显著性(marginally significant)(可参考前期推送的有关P值100种表达方法的内容进行描述)。如果没有充分的证据证明该效应值在人群中实际上存在显著性,而阴性结果可能是由于抽样误差造成的,那么我们就应该遵守游戏规则,当设定α=0.05时,若假设检验得出P≥0.05,即认为无统计学显著性,作者可以在论文的讨论部分对其原因进行详细探讨。
七、生存分析
Cox比例风险模型(Cox proportional hazard model)以生存结局和生存时间为因变量,在校正多种混杂因素后,用来分析研究因素对于结局的影响。需要注意的是,Cox模型的基本假定是比例风险假定(PH假定),只有在满足PH假定的前提下,基于此模型的分析才是可靠有效的,然而对于该假定的检验往往被研究人员所忽略。

检验PH假定最简单的方法就是观察按照研究变量分组后的Kapla-Meier生存曲线,若生存曲线明显交叉,则提示不满足PH假定。具体可以参考前期推送的有关PH假定检验的内容进行学习。

以上是杂志主编针对论文中进行数据编辑时,常出现的错误和需要注意的地方总结的几项心得,希望能够帮助大家避免再犯此类的错误。小伙伴们在撰写文章和进行投稿时,还有哪些体会和感受值得引起大家注意的,也欢迎和我们一起来分享哈。

参考文献
[1] J Korean Med Sci 2017; 33: 1072-76

评分

参与人数 1威望 +2 金币 +3 收起 理由
caoyulongchn + 2 + 3 很给力!

查看全部评分

贡献排行榜:
发表于 2017-7-10 14:55:05 | 显示全部楼层 IP:上海
干货!统计是很多文章死不瞑目的点
回复

使用道具 举报

发表于 2017-7-10 15:03:05 | 显示全部楼层 IP:山东临沂
非常感谢老师的资料分享!学习了!
回复

使用道具 举报

发表于 2017-7-10 15:34:33 | 显示全部楼层 IP:山西太原
谢谢分享,谢谢您的无私奉献。
回复

使用道具 举报

发表于 2017-7-10 16:00:07 | 显示全部楼层 IP:北京
谢谢分享,谢谢您的无私奉献。
回复

使用道具 举报

发表于 2017-7-10 17:02:57 | 显示全部楼层 IP:天津
感谢老师的分享,学习了。   
回复

使用道具 举报

发表于 2017-7-11 16:41:56 | 显示全部楼层 IP:湖北黄石
非常感谢老师的资料分享!学习了!
回复

使用道具 举报

发表于 2017-7-13 15:22:35 | 显示全部楼层 IP:四川
谢谢老师分享,很受用。
回复

使用道具 举报

发表于 2017-7-14 08:00:18 | 显示全部楼层 IP:河南
下载并分享学习,很实用,老师辛苦了!
回复

使用道具 举报

发表于 2017-7-14 09:13:54 | 显示全部楼层 IP:山东聊城
老师分享的资料太详细了,真是戳中我的要害!
回复

使用道具 举报

发表于 2017-7-14 15:39:12 | 显示全部楼层 IP:陕西
谢谢分享,谢谢您的无私奉献。
回复

使用道具 举报

发表于 2017-7-16 11:36:20 | 显示全部楼层 IP:江西
可以借鉴使用,避免论文出现同样的错误           
回复

使用道具 举报

发表于 2017-9-14 16:39:35 | 显示全部楼层 IP:湖北黄石
非常感谢老师的资料分享!学习了!
回复

使用道具 举报

发表于 2017-11-1 16:17:25 | 显示全部楼层 IP:重庆
正好需要,超级有用的资料
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 |

本版积分规则

×本站发帖友情提示
1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在本论坛所发表的文章、帖子。
3、所有网友不要盗用有明确版权要求的作品,转贴请注明来源,否则文责自负。
4、本社区保护注册用户个人资料,但是在自身原因导致个人资料泄露、丢失、被盗或篡改,本论坛概不负责,也不承担相应法律责任。

1楼
2楼
3楼
4楼
5楼
6楼
7楼
8楼
9楼
10楼
11楼
12楼
13楼
14楼
关闭

站长推荐上一条 /1 下一条

快速回复 返回顶部 返回列表