本帖最后由 御剑迎风 于 2017-7-12 10:41 编辑
为什么会出现辛普森悖论?
用文绉绉的话说,这是由于混合样本中可能包含着类型完全不同的个体,因此,全样本的分析并不能代表其中每类个体的特征,特别是当个体间在被解释变量上存在巨大差异以及不同个体的样本总数存在巨大差异的时候,辛普森悖论就更会产生。
用更简单的话概述:样本代表性有差异,不能直接比较!要尽可能的把差异先分层,再进行分析
流行病学中,通常将这种现象称为“混杂因素”,正是这一个因素的存在,使得原本的结果发生了扭曲,即真相被掩盖了。
例1中,新旧疗法对成人治愈率均为50%,对儿童治愈率均为10%,这是一个比较稳定的频率。因此,选取成人和儿童人数相同情况下(即标准化后),新疗法和旧疗法的治疗效果是没有差异的,证明过程略。
同样方法用于例2。单看总体治愈率,B手术是高于A手术的,但实际上A手术和B手术选取的患者是不均衡的。均衡的情况下,A的均是高于B的,总体也是A高于B。
|