御剑迎风 发表于 2017-7-6 09:27

一些常见的统计错误(一) 33/34楼有更新

本帖最后由 御剑迎风 于 2017-7-12 10:13 编辑

统计目前已经深入到各类研究中,如果你的研究不带点数据或者进行统计分析,那么大家普遍会认为你的研究太low了。


但是大家知道吗,统计也不是百分百靠谱,也会光明正大的说谎,其中最有欺骗性的的例子莫过于统计学中著名的辛普森悖论了。

以斯坦福讲义里的一个实例讲起。

某大学历史系和地理系招生,共有13男13女报名。

                  男         女
历史系         1/5<    2/8
地理系         6/8<   4/5
整个学校   7/13 > 6/13


历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:

1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。


2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。

实际上述情况经常出现,在医学科研领域更为显著,经常有审稿人尖锐的批评:为什么让我审一篇数据分层后就根本没有意义的文章.....。

英国统计学家辛普森将上述情况描述为悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

那么大家能根据自身情况举出一些例子吗?

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割一下
上述例子在医学领域屡见不鲜,例如1.新、旧疗法治疗某病的效果比较

                               新疗法                                             旧疗法
                  治疗人数   治愈人数    治愈率         治疗人数   治愈人数    治愈率   
成人            200             100         50%             100            50            50%
儿童            100               10         10%             200            20            10%
合计            300            110          36.7%          300            70            23.3%

新旧疗法对儿童、成人治愈率没有差别,大家说哪种方法更好?

例2A手术方式和B手术方式哪种更好?

                                    A手术方式                                        B手术方式
                  治疗人数   治愈人数    治愈率         治疗人数   治愈人数    治愈率   
轻症            300             150         50%             100                40         40%
重症            100               80         80%             300            210         70%
合计            400             230      57.5%             400            250         62.5%

单看轻症、重症患者的治愈率,A手术都是明显高于B手术的;但B手术的总体治愈率却是高于A手术的

如果你需要做手术,你会选择哪个手术方式?




caoyulongchn 发表于 2017-7-6 09:32

谢谢史老师分享,这种情况在审稿过程中的确十分普遍

liyuyu2002 发表于 2017-7-6 09:39

对啊,有时月统计的数据是不能累加作为季统计的,我们也发现这样的情况

草莓小花朵 发表于 2017-7-6 09:43

期待大神的统计系列,我已备好小板凳占据前排有力地势,强势围观{:1_12:}

静雨轩 发表于 2017-7-6 09:44

名字改成:数据说的谎话{:1_9:}

中原一点红 发表于 2017-7-6 09:45

感觉我到死都学不完,也学不好。{:1_12:}

glszxyjhyy 发表于 2017-7-6 10:07

现在什么都用数据说话,原来数据也可以说谎的{:1_10:}

3032775750 发表于 2017-7-6 10:19

这个理论,知道较少,围观中。

黔西南妇幼 发表于 2017-7-6 10:21

看得到,不一定是真实的{:1_12:}{:1_12:}{:1_12:}

慕延 发表于 2017-7-6 10:21

本帖最后由 慕延 于 2017-7-6 22:34 编辑

后面涉及到直接标化和间接标化的问题啦,又有专题可以开了{:1_12:}

嘟嘟鱼 发表于 2017-7-6 10:34

实例很直观的看到是数据说谎了{:1_1:}但不太明白,为什么会出现这种情况?可以避免吗?

yage 发表于 2017-7-6 14:17

率和率(比和比)是不能直接相加的,很容易被迷惑,学习了。

huhongtao 发表于 2017-7-6 15:53

平时都没注意这个问题,学习了,谢谢分享!

bdx 发表于 2017-7-6 15:56

其中暗藏玄机,请大师指点{:1_1:}

冰水晶星 发表于 2017-7-6 16:34

统计分析确实不懂,期待老师们指点。

Rainy2088 发表于 2017-7-6 16:48


guoli2008 发表于 2017-7-6 17:12

又学习到了新知识,谢谢分享

458692662 发表于 2017-7-6 17:24

又学到了新知识,谢谢老师分享

tracy 发表于 2017-7-6 20:02

这里涉及到率的标准化问题,考虑分层因素引起的率的差异,计算总率时不能直接比较,需要计算标准化率再进行比较,否则会得出错误的结论

御剑迎风 发表于 2017-7-6 21:37

Rainy2088 发表于 2017-7-6 16:48


很通俗易懂的数学模型,赞一个
页: [1] 2
查看完整版本: 一些常见的统计错误(一) 33/34楼有更新