一些常见的统计错误(二) 经常被乱用的平均
本帖最后由 御剑迎风 于 2017-7-18 11:46 编辑2楼、3楼有更新,例题正确解答者将有高额奖励哦~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
毫不夸张地说,绝大部分国内期刊,甚至在很多低分SCI杂志上,乱用统计学的现象多如牛毛。还有很多医疗同行,对于统计甚为迷恋,能统计的也统计,不能统计的创造条件也要统计,以至于很多时候我们存在“被代表”、“被平均”、“被统计”的现象。
而“平均”这个概念,尤其被应用最广,甚至被误用、误用。今天,我们好好来聊一下医学领域如何更科学的进行“平均”统计
按照惯例,我还是先讲几个冷笑话。
1.我出生在河南,但在上海工作,所以平均下来我是安徽人(http://bbs.sific.com.cn/static/image/smiley/default/sweat.gif)
2.康熙是清朝皇帝,嬴政是秦朝皇帝,所以他俩一平均是唐朝皇帝(康熙大帝和嬴政大帝的棺材板,我表示按不住了http://bbs.sific.com.cn/static/image/smiley/default/lol.gif)
3.小明尿糖化验阴性(-),小红和小强尿糖化验三个+,所以他们平均下来是2个+(小明:我吃你家糖了?http://bbs.sific.com.cn/static/image/smiley/default/mad.gif)
如果您看笑了,不妨再来思考下以下问题。
小明被两个医院同时录取,但为了考虑今后发展(我会告诉你,他更在乎收入吗{:7_873:}),他对甲乙两院8个医生收入进行统计,得到以下结果:
A医院医生月收入(w)0.5 0.5 1 1.5 2.5 1.50.572 平均 10w
B医院医生月收入(w)7.5 6.4 7.6 6.5 7 8 6 7 平均7w
如果你是小明,你会选择哪个医院?
某医院统计两个科室的病人住院时长,统计结果如下
A科室(天) 1 3 5 19 41 2 2 6 >45
B科室(天) 252931 33 28 30 26 30 32
那么,如何描述A、B两个科室病人住院时长?
ELISA法测定人群血清某抗体水平,结果如下
抗体滴度:1:11:21:21:4 1:8 1:2 1:161:321:16
那么,该人群血清平均抗体水平是多少?
本帖最后由 御剑迎风 于 2017-7-18 10:37 编辑
在回答以上问题之前,我们先来聊聊数据变量的分类。
变量的分类方法有很多,使用较普遍的是把变量分为定性变量和定量变量两种。
定性变量,顾名思义,就是按照资料的性质来命名的资料。例如,性别分为男性和女性,细菌可分为耐药和不耐药,职业分为学生、老师、厨师、司机等等,这些资料不可以用数字来量化,但为了计算机识别和统计分析,我们给这些水平附值为1,2,3,4等(只表示代表,不表示具体大小)。
有的时候,我们也需要将资料按照等级分类,如出院状况将资料分为治愈,好转,未愈,死亡等四个等级,如笑话3中的尿糖 -,+,++,+++也是一种等级资料。
定量资料,简单的理解,就是可以用数字衡量观测指标大小的资料。例如我们的身高、体重、年龄等等。
为什么要给大家讲这个?
明确资料是定性还是定量在数据分析时很重要,因为很多统计学方法都和变量类型有关,后续我们会继续讨论。 本帖最后由 御剑迎风 于 2017-7-18 11:45 编辑
平均数是统计中的一个重要概念,作为描述数据集中趋势的一个指标,实际上有着严格的适用范围。
《医学统计学基础(第2版)》(复旦大学出版)是这样定义算术均数(即我们通常所提到的平均数)的:简称均数,反应一组同质观察值的平均水平,用于描述对称分布资料的集中程度。
在这里,我们要明确两点:
第一,资料是同一性质才具有可比性。这也就意味着我们不能拿张三的瓜和李四的桃子进行平均,也不能拿王五的身高和赵六的体重进行平均。
第二,资料需要是对称分布。这一点尤为关键,也是统计新手最常犯得错误。对称分布就是把资料从小到大排列,看直方图是否近似对称,如果数据不对称,那么我们就应该用中位数和四分位间距来描述资料的“平均”情况。
所以我们来看下例1。
A医院医生月收入极不均衡,有一个人收入高达72万元,但剩余的月收入为0.5~2.5w元,但这个异常高的收入往往带动其他医生“平均”收入为10w。
而B医院医生月收入整体比较均衡,多集中在6~8w元,这个平均7w元可以很好的代表实际情况,所以我推荐小明去B医院。
从统计角度解析,就是对称资料用均值,偏态资料用中位数来描述
例2中,A科室有一个病人住院时长>45天,资料无法判定为对称。这个时候我们就需要按照中位数来描述了(定义我就啰嗦了,不懂问度娘{:1_12:})。
那么用中位数来表示,有什么优点呢?
第一,中位数适用于资料分布为偏态或未知。这也就意味着它的适用范围更广,不受资料性质的限制。
第二,中位数适用于数据两端无确切值的资料,如>45天就是一个分布无上限的资料。因为实际工作中这种资料并不少见,所以进行统计描述时候要特别注意。
例3中,虽然这些资料无法用算术平均数和中位数来描述,但经过对数转换后基本呈正态分布。这个时候需要我们用几何均数来进行资料的描述。
最后,3个例题的正确答案我就不公布了,正确回答者将有高额奖励哦~
等了好几天了,终于等来了史老师统计讲堂的第二讲!谢谢史老师! caoyulongchn 发表于 2017-7-13 09:39
等了好几天了,终于等来了史老师统计讲堂的第二讲!谢谢史老师!
放在上面大家是不是看不到啊? 御剑迎风 发表于 2017-7-13 09:43
放在上面大家是不是看不到啊?
置顶不是更醒目吗{:1_29:} 老师分享的内容很实用,学习了! 一个月有7W,春天来了吗{:1_12:} 呵呵谢谢老师分享,还真不能迷信统计学。 慕延 发表于 2017-7-14 09:17
一个月有7W,春天来了吗
你去咱院骨科,保证你闲少{:7_863:} 御剑迎风 发表于 2017-7-14 10:50
你去咱院骨科,保证你闲少
{:3_702:}他们收我,我的良心都不容我{:3_696:} 关注,等待老师继续讲解 统计学数据有点让我想静静了 平均数首先是要满足正态分布的条件,才能计算平均数,上述的A医院的收入10万。B医院的收入7万,光从收入上以为A医院的收入高,其实大错特错,A医院的收入有一个极端异常值72万,计算该数据不一定满足正态分布资料。 tracy 发表于 2017-7-16 11:26
平均数首先是要满足正态分布的条件,才能计算平均数,上述的A医院的收入10万。B医院的收入7万,光从收入上 ...
正解!
只是大家一般不会,也很难区分,所以经常用错地方 没有明白{:1_10:}{:1_10:} 复习了下统计学{:1_1:} 有时候“均值”确实会带来一些误导。尤其是有一个特别大的数和特别小的数处在同一数组时,误导性更大。
也许,参考一下【方差】,会对均值有一个比较清醒的认识呢 我也是正儿八经学过统计学的,看了老师的例子后都有点蒙,这些基本的概念长时间不用都忘了,看来的吧统计书拿出来复习复习了。 duanqiuhong 发表于 2017-7-24 16:15
我也是正儿八经学过统计学的,看了老师的例子后都有点蒙,这些基本的概念长时间不用都忘了,看来的吧统计书 ...
这个是最常见,也是最容易出现的统计错误,提醒大家别瞎用统计
页:
[1]
2