御剑迎风 发表于 2017-2-4 10:13

统计学不得不说的二三事(三)

本帖最后由 御剑迎风 于 2017-2-4 10:33 编辑

3、如何看待统计学结果


路人甲经历数十年的研究,动用了各种高精尖的研究手段,发现了一个新的蛋白(命名为蛋白A)。在肝癌患者中展开的研究表明,蛋白A和甲胎蛋白(AFP)有很好的相关性,其相关程度之好,几乎可以用“一塌糊涂”来形容,相关系数达到了0.99(P<0.0001)。路人甲欣喜若狂,尽管蛋白A的检测过程还十分繁琐,检测费用还十分高,但是路人甲还是把持不住内心的激动,日夜兼程地撰写论文,宣称自己找到了一个新的肝癌标志物。


路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:统计结果表明蛋白A和AFP的相关性十分明显。如果是这样,在临床实践中,通过检测AFP完全就可以得知蛋白A的浓度了,蛋白A在肝癌中的临床价值完全可以被AFP代替,还不说蛋白A的检测过程繁琐,费用太高的问题,你说蛋白A还有什么价值? Reject!


这个故事说明:统计学阳性的结果未必是“好结果”。


路人甲发明了两套诊断肺癌的方案,分别命名为A和B。为了明确这两种方到底谁“更胜一筹”,路人甲找了100个肺癌患者和100个疑似肺癌患者(结核、肺炎等),分别用A、B两套方案去进行鉴别诊断。在200个研究对象中(100个肺癌和100个非肺癌),方案A正确了100回,准确率50%,方案B仅仅正确了50回,准确率仅为25%。卡方检验表明:方案A和B准确率之间的差异有统计学意义(P<0.01)。很明显,方案A的准确性要高于方案B。路人甲赶紧发表论文,指出:方案A诊断肺癌的准确性优于方案B。


路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:如果我(审稿人本人)是坐诊医生,他就会反着看方案B的结果,凡是方案B认为是肺癌的,他就认为病人不是肺癌;反之亦然。这样下来,200个病人中,方案B应该能正确识别150个人,准确率为75%,统计学结果表明,方案B的准确率(75%)是高于方案A(50%)的,所以真实的情况是方案B优于方案A。实际上,当面对这200名患者的时候,随便到城隍庙找个瞎子来“算命(猜患者是否患病)”,按照统计学理论,准确率也应该是50%,方案A的价值可以说是“一无是处”。Reject!


这个故事说明:统计学阴性的结果未必是“坏结果”。


还是那个AFP与蛋白A的例子。路人甲发现蛋白A和甲胎蛋白(AFP)之间有很好的相关性,也开始撰写论文,但是他的结论并不是“蛋白A是诊断肝癌的标记物”。他认为,既然蛋白A与AFP之间有很强的相关性,那提示AFP和蛋白A之间可能存在十分密切的“调节”或者“被调节”关系。最终,路人甲围绕“蛋白A与AFP之间的调节或者被调节关系”做了很多分子生物学试验,指出蛋白A是调节AFP表达的唯一(注意“唯一”这两个字)因子,因此二者之间才会呈现如此强烈的相关性。这是一项基础研究,虽然未能直截了当地地指出蛋白A的临床价值,但是这个研究形象生动地讲述了一个完整的分子生物学事件,丰富了我们对于肝癌发生与发展分子机制的认识。最终,论文“堂而皇之”地accept了。


这个故事说明:同一统计学结果,从不同的专业角度去解释,结论是完全不同的。


这三个故事说明:对统计学结果的解读一定要结合专业!从专业中来,到专业中去!

冬日文竹 发表于 2017-2-4 10:28

对统计学结果的解读一定要结合专业!从专业中来,到专业中去!谢谢分享。

芣苢 发表于 2017-2-4 10:40

这个好像是“金鼎数据分析联盟”里面的,貌似以前看过,有印象,不错的东西,多谢分享!很多统计问题太过去深入就忘了回归到原来要解决的现实中去,学习统计也是很头痛的一件事!

wxh715020 发表于 2017-2-4 10:45

学习了,谢谢老师的分享!

院感搬运工 发表于 2017-2-4 15:43

从专业中来,到专业中去,很好的总结。

阿丹丹 发表于 2017-2-9 10:40

谢谢老师的分享{:1_13:}

慕延 发表于 2017-2-27 08:58

从“蛋白A是诊断肝癌的标记物”到“蛋白A与AFP之间的调节或者被调节关系”。

有些国自然标书是不是可以这么自救{:1_12:}

御剑迎风 发表于 2017-3-1 08:12

Amen1223 发表于 2017-2-27 08:58
从“蛋白A是诊断肝癌的标记物”到“蛋白A与AFP之间的调节或者被调节关系”。

有些国自然标书是不是可以 ...

感控的国自然靠你了,我看好你~
页: [1]
查看完整版本: 统计学不得不说的二三事(三)