一些常见的统计错误(一) 33/34楼有更新
本帖最后由 御剑迎风 于 2017-7-12 10:13 编辑统计目前已经深入到各类研究中,如果你的研究不带点数据或者进行统计分析,那么大家普遍会认为你的研究太low了。
但是大家知道吗,统计也不是百分百靠谱,也会光明正大的说谎,其中最有欺骗性的的例子莫过于统计学中著名的辛普森悖论了。
以斯坦福讲义里的一个实例讲起。
某大学历史系和地理系招生,共有13男13女报名。
男 女
历史系 1/5< 2/8
地理系 6/8< 4/5
整个学校 7/13 > 6/13
历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:
1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。
2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。
实际上述情况经常出现,在医学科研领域更为显著,经常有审稿人尖锐的批评:为什么让我审一篇数据分层后就根本没有意义的文章.....。
英国统计学家辛普森将上述情况描述为悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
那么大家能根据自身情况举出一些例子吗?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割一下
上述例子在医学领域屡见不鲜,例如1.新、旧疗法治疗某病的效果比较
新疗法 旧疗法
治疗人数 治愈人数 治愈率 治疗人数 治愈人数 治愈率
成人 200 100 50% 100 50 50%
儿童 100 10 10% 200 20 10%
合计 300 110 36.7% 300 70 23.3%
新旧疗法对儿童、成人治愈率没有差别,大家说哪种方法更好?
例2A手术方式和B手术方式哪种更好?
A手术方式 B手术方式
治疗人数 治愈人数 治愈率 治疗人数 治愈人数 治愈率
轻症 300 150 50% 100 40 40%
重症 100 80 80% 300 210 70%
合计 400 230 57.5% 400 250 62.5%
单看轻症、重症患者的治愈率,A手术都是明显高于B手术的;但B手术的总体治愈率却是高于A手术的
如果你需要做手术,你会选择哪个手术方式?
谢谢史老师分享,这种情况在审稿过程中的确十分普遍 对啊,有时月统计的数据是不能累加作为季统计的,我们也发现这样的情况 期待大神的统计系列,我已备好小板凳占据前排有力地势,强势围观{:1_12:} 名字改成:数据说的谎话{:1_9:}
感觉我到死都学不完,也学不好。{:1_12:} 现在什么都用数据说话,原来数据也可以说谎的{:1_10:} 这个理论,知道较少,围观中。 看得到,不一定是真实的{:1_12:}{:1_12:}{:1_12:} 本帖最后由 慕延 于 2017-7-6 22:34 编辑
后面涉及到直接标化和间接标化的问题啦,又有专题可以开了{:1_12:} 实例很直观的看到是数据说谎了{:1_1:}但不太明白,为什么会出现这种情况?可以避免吗? 率和率(比和比)是不能直接相加的,很容易被迷惑,学习了。 平时都没注意这个问题,学习了,谢谢分享! 其中暗藏玄机,请大师指点{:1_1:} 统计分析确实不懂,期待老师们指点。
又学习到了新知识,谢谢分享 又学到了新知识,谢谢老师分享 这里涉及到率的标准化问题,考虑分层因素引起的率的差异,计算总率时不能直接比较,需要计算标准化率再进行比较,否则会得出错误的结论 Rainy2088 发表于 2017-7-6 16:48
很通俗易懂的数学模型,赞一个
页:
[1]
2