统计学不得不说的二三事(三)
本帖最后由 御剑迎风 于 2017-2-4 10:33 编辑3、如何看待统计学结果
路人甲经历数十年的研究,动用了各种高精尖的研究手段,发现了一个新的蛋白(命名为蛋白A)。在肝癌患者中展开的研究表明,蛋白A和甲胎蛋白(AFP)有很好的相关性,其相关程度之好,几乎可以用“一塌糊涂”来形容,相关系数达到了0.99(P<0.0001)。路人甲欣喜若狂,尽管蛋白A的检测过程还十分繁琐,检测费用还十分高,但是路人甲还是把持不住内心的激动,日夜兼程地撰写论文,宣称自己找到了一个新的肝癌标志物。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:统计结果表明蛋白A和AFP的相关性十分明显。如果是这样,在临床实践中,通过检测AFP完全就可以得知蛋白A的浓度了,蛋白A在肝癌中的临床价值完全可以被AFP代替,还不说蛋白A的检测过程繁琐,费用太高的问题,你说蛋白A还有什么价值? Reject!
这个故事说明:统计学阳性的结果未必是“好结果”。
路人甲发明了两套诊断肺癌的方案,分别命名为A和B。为了明确这两种方到底谁“更胜一筹”,路人甲找了100个肺癌患者和100个疑似肺癌患者(结核、肺炎等),分别用A、B两套方案去进行鉴别诊断。在200个研究对象中(100个肺癌和100个非肺癌),方案A正确了100回,准确率50%,方案B仅仅正确了50回,准确率仅为25%。卡方检验表明:方案A和B准确率之间的差异有统计学意义(P<0.01)。很明显,方案A的准确性要高于方案B。路人甲赶紧发表论文,指出:方案A诊断肺癌的准确性优于方案B。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:如果我(审稿人本人)是坐诊医生,他就会反着看方案B的结果,凡是方案B认为是肺癌的,他就认为病人不是肺癌;反之亦然。这样下来,200个病人中,方案B应该能正确识别150个人,准确率为75%,统计学结果表明,方案B的准确率(75%)是高于方案A(50%)的,所以真实的情况是方案B优于方案A。实际上,当面对这200名患者的时候,随便到城隍庙找个瞎子来“算命(猜患者是否患病)”,按照统计学理论,准确率也应该是50%,方案A的价值可以说是“一无是处”。Reject!
这个故事说明:统计学阴性的结果未必是“坏结果”。
还是那个AFP与蛋白A的例子。路人甲发现蛋白A和甲胎蛋白(AFP)之间有很好的相关性,也开始撰写论文,但是他的结论并不是“蛋白A是诊断肝癌的标记物”。他认为,既然蛋白A与AFP之间有很强的相关性,那提示AFP和蛋白A之间可能存在十分密切的“调节”或者“被调节”关系。最终,路人甲围绕“蛋白A与AFP之间的调节或者被调节关系”做了很多分子生物学试验,指出蛋白A是调节AFP表达的唯一(注意“唯一”这两个字)因子,因此二者之间才会呈现如此强烈的相关性。这是一项基础研究,虽然未能直截了当地地指出蛋白A的临床价值,但是这个研究形象生动地讲述了一个完整的分子生物学事件,丰富了我们对于肝癌发生与发展分子机制的认识。最终,论文“堂而皇之”地accept了。
这个故事说明:同一统计学结果,从不同的专业角度去解释,结论是完全不同的。
这三个故事说明:对统计学结果的解读一定要结合专业!从专业中来,到专业中去! 对统计学结果的解读一定要结合专业!从专业中来,到专业中去!谢谢分享。 这个好像是“金鼎数据分析联盟”里面的,貌似以前看过,有印象,不错的东西,多谢分享!很多统计问题太过去深入就忘了回归到原来要解决的现实中去,学习统计也是很头痛的一件事! 学习了,谢谢老师的分享! 从专业中来,到专业中去,很好的总结。 谢谢老师的分享{:1_13:} 从“蛋白A是诊断肝癌的标记物”到“蛋白A与AFP之间的调节或者被调节关系”。
有些国自然标书是不是可以这么自救{:1_12:} Amen1223 发表于 2017-2-27 08:58
从“蛋白A是诊断肝癌的标记物”到“蛋白A与AFP之间的调节或者被调节关系”。
有些国自然标书是不是可以 ...
感控的国自然靠你了,我看好你~
页:
[1]