御剑迎风 发表于 2017-7-13 09:33

一些常见的统计错误(二) 经常被乱用的平均

本帖最后由 御剑迎风 于 2017-7-18 11:46 编辑

2楼、3楼有更新,例题正确解答者将有高额奖励哦~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

毫不夸张地说,绝大部分国内期刊,甚至在很多低分SCI杂志上,乱用统计学的现象多如牛毛。还有很多医疗同行,对于统计甚为迷恋,能统计的也统计,不能统计的创造条件也要统计,以至于很多时候我们存在“被代表”、“被平均”、“被统计”的现象。

而“平均”这个概念,尤其被应用最广,甚至被误用、误用。今天,我们好好来聊一下医学领域如何更科学的进行“平均”统计

按照惯例,我还是先讲几个冷笑话。

1.我出生在河南,但在上海工作,所以平均下来我是安徽人(http://bbs.sific.com.cn/static/image/smiley/default/sweat.gif)

2.康熙是清朝皇帝,嬴政是秦朝皇帝,所以他俩一平均是唐朝皇帝(康熙大帝和嬴政大帝的棺材板,我表示按不住了http://bbs.sific.com.cn/static/image/smiley/default/lol.gif)

3.小明尿糖化验阴性(-),小红和小强尿糖化验三个+,所以他们平均下来是2个+(小明:我吃你家糖了?http://bbs.sific.com.cn/static/image/smiley/default/mad.gif)

如果您看笑了,不妨再来思考下以下问题。

小明被两个医院同时录取,但为了考虑今后发展(我会告诉你,他更在乎收入吗{:7_873:}),他对甲乙两院8个医生收入进行统计,得到以下结果:
A医院医生月收入(w)0.5    0.5    1    1.5   2.5   1.50.572       平均 10w
B医院医生月收入(w)7.5    6.4   7.6   6.5   7      8    6    7       平均7w   
如果你是小明,你会选择哪个医院?

某医院统计两个科室的病人住院时长,统计结果如下
A科室(天)    1   3   5   19   41    2    2    6   >45
B科室(天)   252931   33   28   30   26   30    32
那么,如何描述A、B两个科室病人住院时长?

ELISA法测定人群血清某抗体水平,结果如下
抗体滴度:1:11:21:21:4   1:8   1:2   1:161:321:16
那么,该人群血清平均抗体水平是多少?

御剑迎风 发表于 2017-7-13 09:34

本帖最后由 御剑迎风 于 2017-7-18 10:37 编辑

在回答以上问题之前,我们先来聊聊数据变量的分类。

变量的分类方法有很多,使用较普遍的是把变量分为定性变量和定量变量两种。

定性变量,顾名思义,就是按照资料的性质来命名的资料。例如,性别分为男性和女性,细菌可分为耐药和不耐药,职业分为学生、老师、厨师、司机等等,这些资料不可以用数字来量化,但为了计算机识别和统计分析,我们给这些水平附值为1,2,3,4等(只表示代表,不表示具体大小)。
有的时候,我们也需要将资料按照等级分类,如出院状况将资料分为治愈,好转,未愈,死亡等四个等级,如笑话3中的尿糖 -,+,++,+++也是一种等级资料。

定量资料,简单的理解,就是可以用数字衡量观测指标大小的资料。例如我们的身高、体重、年龄等等。

为什么要给大家讲这个?

明确资料是定性还是定量在数据分析时很重要,因为很多统计学方法都和变量类型有关,后续我们会继续讨论。

御剑迎风 发表于 2017-7-13 09:34

本帖最后由 御剑迎风 于 2017-7-18 11:45 编辑

平均数是统计中的一个重要概念,作为描述数据集中趋势的一个指标,实际上有着严格的适用范围。

《医学统计学基础(第2版)》(复旦大学出版)是这样定义算术均数(即我们通常所提到的平均数)的:简称均数,反应一组同质观察值的平均水平,用于描述对称分布资料的集中程度。

在这里,我们要明确两点:
第一,资料是同一性质才具有可比性。这也就意味着我们不能拿张三的瓜和李四的桃子进行平均,也不能拿王五的身高和赵六的体重进行平均。

第二,资料需要是对称分布。这一点尤为关键,也是统计新手最常犯得错误。对称分布就是把资料从小到大排列,看直方图是否近似对称,如果数据不对称,那么我们就应该用中位数和四分位间距来描述资料的“平均”情况。

所以我们来看下例1。
A医院医生月收入极不均衡,有一个人收入高达72万元,但剩余的月收入为0.5~2.5w元,但这个异常高的收入往往带动其他医生“平均”收入为10w。
而B医院医生月收入整体比较均衡,多集中在6~8w元,这个平均7w元可以很好的代表实际情况,所以我推荐小明去B医院。

从统计角度解析,就是对称资料用均值,偏态资料用中位数来描述

例2中,A科室有一个病人住院时长>45天,资料无法判定为对称。这个时候我们就需要按照中位数来描述了(定义我就啰嗦了,不懂问度娘{:1_12:})。

那么用中位数来表示,有什么优点呢?
第一,中位数适用于资料分布为偏态或未知。这也就意味着它的适用范围更广,不受资料性质的限制。
第二,中位数适用于数据两端无确切值的资料,如>45天就是一个分布无上限的资料。因为实际工作中这种资料并不少见,所以进行统计描述时候要特别注意。

例3中,虽然这些资料无法用算术平均数和中位数来描述,但经过对数转换后基本呈正态分布。这个时候需要我们用几何均数来进行资料的描述。

最后,3个例题的正确答案我就不公布了,正确回答者将有高额奖励哦~

caoyulongchn 发表于 2017-7-13 09:39

等了好几天了,终于等来了史老师统计讲堂的第二讲!谢谢史老师!

御剑迎风 发表于 2017-7-13 09:43

caoyulongchn 发表于 2017-7-13 09:39
等了好几天了,终于等来了史老师统计讲堂的第二讲!谢谢史老师!

放在上面大家是不是看不到啊?

caoyulongchn 发表于 2017-7-13 10:19

御剑迎风 发表于 2017-7-13 09:43
放在上面大家是不是看不到啊?

置顶不是更醒目吗{:1_29:}

lyluoxiuhua 发表于 2017-7-13 11:16

老师分享的内容很实用,学习了!

慕延 发表于 2017-7-14 09:17

一个月有7W,春天来了吗{:1_12:}

山东莘县中医院 发表于 2017-7-14 09:50

呵呵谢谢老师分享,还真不能迷信统计学。

御剑迎风 发表于 2017-7-14 10:50

慕延 发表于 2017-7-14 09:17
一个月有7W,春天来了吗

你去咱院骨科,保证你闲少{:7_863:}

慕延 发表于 2017-7-14 10:56

御剑迎风 发表于 2017-7-14 10:50
你去咱院骨科,保证你闲少

{:3_702:}他们收我,我的良心都不容我{:3_696:}

最美-遇见 发表于 2017-7-15 08:36

关注,等待老师继续讲解

再接再厉 发表于 2017-7-15 17:42

统计学数据有点让我想静静了

tracy 发表于 2017-7-16 11:26

平均数首先是要满足正态分布的条件,才能计算平均数,上述的A医院的收入10万。B医院的收入7万,光从收入上以为A医院的收入高,其实大错特错,A医院的收入有一个极端异常值72万,计算该数据不一定满足正态分布资料。

御剑迎风 发表于 2017-7-16 23:31

tracy 发表于 2017-7-16 11:26
平均数首先是要满足正态分布的条件,才能计算平均数,上述的A医院的收入10万。B医院的收入7万,光从收入上 ...

正解!
只是大家一般不会,也很难区分,所以经常用错地方

风雪里的花瓣ljf 发表于 2017-7-17 09:00

没有明白{:1_10:}{:1_10:}

道济天下之溺 发表于 2017-7-18 12:05

复习了下统计学{:1_1:}

ICBC 发表于 2017-7-24 11:31

有时候“均值”确实会带来一些误导。尤其是有一个特别大的数和特别小的数处在同一数组时,误导性更大。

也许,参考一下【方差】,会对均值有一个比较清醒的认识呢

duanqiuhong 发表于 2017-7-24 16:15

我也是正儿八经学过统计学的,看了老师的例子后都有点蒙,这些基本的概念长时间不用都忘了,看来的吧统计书拿出来复习复习了。

御剑迎风 发表于 2017-7-25 12:32

duanqiuhong 发表于 2017-7-24 16:15
我也是正儿八经学过统计学的,看了老师的例子后都有点蒙,这些基本的概念长时间不用都忘了,看来的吧统计书 ...

这个是最常见,也是最容易出现的统计错误,提醒大家别瞎用统计
页: [1] 2
查看完整版本: 一些常见的统计错误(二) 经常被乱用的平均