找回密码
 注册

微信登录,快人一步

QQ登录

只需一步,快速开始

公告区+ 发布

03-21 08:09
03-17 08:04
03-17 08:03
03-06 08:48
01-07 16:18
01-06 15:55
01-02 17:30
查看: 2299|回复: 26

[原创] 一些常见的统计错误(二) 经常被乱用的平均

  [复制链接]
发表于 2017-7-13 09:33 | 显示全部楼层 |阅读模式

马上注册登录,享用更多感控资源,助你轻松入门。

您需要 登录 才可以下载或查看,没有账号?注册 |

×
本帖最后由 御剑迎风 于 2017-7-18 11:46 编辑

2楼、3楼有更新,例题正确解答者将有高额奖励哦~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

毫不夸张地说,绝大部分国内期刊,甚至在很多低分SCI杂志上,乱用统计学的现象多如牛毛。还有很多医疗同行,对于统计甚为迷恋,能统计的也统计,不能统计的创造条件也要统计,以至于很多时候我们存在“被代表”、“被平均”、“被统计”的现象。

而“平均”这个概念,尤其被应用最广,甚至被误用、误用。今天,我们好好来聊一下医学领域如何更科学的进行“平均”统计

按照惯例,我还是先讲几个冷笑话。

1.我出生在河南,但在上海工作,所以平均下来我是安徽人(

                               
登录/注册后可看大图


2.康熙是清朝皇帝,嬴政是秦朝皇帝,所以他俩一平均是唐朝皇帝(康熙大帝和嬴政大帝的棺材板,我表示按不住了

                               
登录/注册后可看大图


3.小明尿糖化验阴性(-),小红和小强尿糖化验三个+,所以他们平均下来是2个+
小明:我吃你家糖了?

                               
登录/注册后可看大图


如果您看笑了,不妨再来思考下以下问题。

小明被两个医院同时录取,但为了考虑今后发展(我会告诉你,他更在乎收入吗),他对甲乙两院8个医生收入进行统计,得到以下结果:
A医院医生月收入(w)  0.5    0.5    1    1.5   2.5   1.5  0.5  72       平均 10w
B
医院医生月收入(w)  7.5    6.4   7.6   6.5   7      8    6    7       平均  7w   
如果你是小明,你会选择哪个医院?

某医院统计两个科室的病人住院时长,统计结果如下
A科室
(天)    1   3   5   19   41    2    2    6   >45
B科室(天)   25  29  31   33   28   30   26   30    32
那么,如何描述A、B两个科室病人住院时长?

ELISA法测定人群血清某抗体水平,结果如下
抗体滴度:1:1  
1:2  1:2  1:4   1:8   1:2   1:16  1:32  1:16
那么,该人群血清平均抗体水平是多少?

评分

参与人数 2威望 +4 金币 +6 收起 理由
慕延 + 2 + 2 淡定
禅静思语 + 2 很给力!

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2017-7-13 09:34 | 显示全部楼层
本帖最后由 御剑迎风 于 2017-7-18 10:37 编辑

在回答以上问题之前,我们先来聊聊数据变量的分类。

变量的分类方法有很多,使用较普遍的是把变量分为定性变量定量变量两种。

定性变量,顾名思义,就是按照资料的性质来命名的资料。例如,性别分为男性和女性,细菌可分为耐药和不耐药,职业分为学生、老师、厨师、司机等等,这些资料不可以用数字来量化,但
为了计算机识别和统计分析,我们给这些水平附值为1,2,3,4等(只表示代表,不表示具体大小)。
有的时候,我们也需要
将资料按照等级分类,如出院状况将资料分为治愈,好转,未愈,死亡等四个等级,如笑话3中的尿糖 -,+,++,+++也是一种等级资料。

定量资料,简单的理解,就是可以用数字衡量观测指标大小的资料。例如我们的身高、体重、年龄等等。

为什么要给大家讲这个?

明确资料是定性还是定量在数据分析时很重要,因为很多统计学方法都和变量类型有关,后续我们会继续讨论。
回复

使用道具 举报

 楼主| 发表于 2017-7-13 09:34 | 显示全部楼层
本帖最后由 御剑迎风 于 2017-7-18 11:45 编辑

平均数是统计中的一个重要概念,作为描述数据集中趋势的一个指标,实际上有着严格的适用范围。

医学统计学基础(第2版)》(复旦大学出版)是这样定义算术均数(即我们通常所提到的平均数)的:简称均数,反应一组同质观察值的平均水平,用于描述对称分布资料的集中程度。

在这里,我们要明确两点:
第一,资料是同一性质才具有可比性。这也就意味着我们不能拿张三的瓜和李四的桃子进行平均,也不能拿王五的身高和赵六的体重进行平均。

第二,资料需要是对称分布。这一点尤为关键,也是统计新手最常犯得错误。对称分布就是把资料从小到大排列,看直方图是否近似对称,如果数据不对称,那么我们就应该用中位数和四分位间距来描述资料的“平均”情况。

所以我们来看下例1。
A医院医生月收入极不均衡,有一个人收入高达72万元,但剩余的月收入为0.5~2.5w元,但这个异常高的收入往往带动其他医生“平均”收入为10w。
而B医院医生月收入整体比较均衡,多集中在6~8w元,这个平均7w元可以很好的代表实际情况,所以我推荐小明去B医院。

从统计角度解析,就是对称资料用均值,偏态资料用中位数来描述

例2中,A科室有一个病人住院时长>45天,资料无法判定为对称。这个时候我们就需要按照中位数来描述了(定义我就啰嗦了,不懂问度娘)。

那么用中位数来表示,有什么优点呢?
第一,中位数适用于资料分布为偏态或未知。这也就意味着它的适用范围更广,不受资料性质的限制。
第二,中位数适用于数据两端无确切值的资料,如>45天就是一个分布无上限的资料。因为实际工作中这种资料并不少见,所以进行统计描述时候要特别注意。

例3中,虽然这些资料无法用算术平均数和中位数来描述,但经过对数转换后基本呈正态分布。这个时候需要我们用几何均数来进行资料的描述。

最后,3个例题的正确答案我就不公布了,正确回答者将有高额奖励哦~
回复

使用道具 举报

  • 打卡等级:热心大叔
  • 打卡总奖励:1606
  • 最近打卡:2025-04-03 06:46:15
发表于 2017-7-13 09:39 | 显示全部楼层
等了好几天了,终于等来了史老师统计讲堂的第二讲!谢谢史老师!
回复

使用道具 举报

 楼主| 发表于 2017-7-13 09:43 | 显示全部楼层
caoyulongchn 发表于 2017-7-13 09:39
等了好几天了,终于等来了史老师统计讲堂的第二讲!谢谢史老师!

放在上面大家是不是看不到啊?
回复

使用道具 举报

  • 打卡等级:热心大叔
  • 打卡总奖励:1606
  • 最近打卡:2025-04-03 06:46:15
发表于 2017-7-13 10:19 | 显示全部楼层
御剑迎风 发表于 2017-7-13 09:43
放在上面大家是不是看不到啊?

置顶不是更醒目吗
回复

使用道具 举报

发表于 2017-7-13 11:16 | 显示全部楼层
老师分享的内容很实用,学习了!
回复

使用道具 举报

  • 打卡等级:无名新人
  • 打卡总奖励:10
  • 最近打卡:2024-10-14 08:32:20
发表于 2017-7-14 09:17 | 显示全部楼层
一个月有7W,春天来了吗
回复

使用道具 举报

发表于 2017-7-14 09:50 | 显示全部楼层
呵呵谢谢老师分享,还真不能迷信统计学。
回复

使用道具 举报

 楼主| 发表于 2017-7-14 10:50 | 显示全部楼层
慕延 发表于 2017-7-14 09:17
一个月有7W,春天来了吗

你去咱院骨科,保证你闲少
回复

使用道具 举报

  • 打卡等级:无名新人
  • 打卡总奖励:10
  • 最近打卡:2024-10-14 08:32:20
发表于 2017-7-14 10:56 | 显示全部楼层
御剑迎风 发表于 2017-7-14 10:50
你去咱院骨科,保证你闲少

他们收我,我的良心都不容我
回复

使用道具 举报

  • 打卡等级:热心大叔
  • 打卡总奖励:626
  • 最近打卡:2025-04-03 08:42:50
发表于 2017-7-15 08:36 | 显示全部楼层
关注,等待老师继续讲解
回复

使用道具 举报

发表于 2017-7-15 17:42 | 显示全部楼层
统计学数据有点让我想静静了
回复

使用道具 举报

发表于 2017-7-16 11:26 | 显示全部楼层
平均数首先是要满足正态分布的条件,才能计算平均数,上述的A医院的收入10万。B医院的收入7万,光从收入上以为A医院的收入高,其实大错特错,A医院的收入有一个极端异常值72万,计算该数据不一定满足正态分布资料。

评分

参与人数 1威望 +1 金币 +5 收起 理由
御剑迎风 + 1 + 5 赞一个!

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2017-7-16 23:31 | 显示全部楼层
tracy 发表于 2017-7-16 11:26
平均数首先是要满足正态分布的条件,才能计算平均数,上述的A医院的收入10万。B医院的收入7万,光从收入上 ...

正解!
只是大家一般不会,也很难区分,所以经常用错地方
回复

使用道具 举报

  • 打卡等级:初来乍到
  • 打卡总奖励:31
  • 最近打卡:2025-01-13 09:03:02
发表于 2017-7-18 12:05 | 显示全部楼层
复习了下统计学
回复

使用道具 举报

发表于 2017-7-24 11:31 | 显示全部楼层
有时候“均值”确实会带来一些误导。尤其是有一个特别大的数和特别小的数处在同一数组时,误导性更大。

也许,参考一下【方差】,会对均值有一个比较清醒的认识呢
回复

使用道具 举报

发表于 2017-7-24 16:15 | 显示全部楼层
我也是正儿八经学过统计学的,看了老师的例子后都有点蒙,这些基本的概念长时间不用都忘了,看来的吧统计书拿出来复习复习了。
回复

使用道具 举报

 楼主| 发表于 2017-7-25 12:32 | 显示全部楼层
duanqiuhong 发表于 2017-7-24 16:15
我也是正儿八经学过统计学的,看了老师的例子后都有点蒙,这些基本的概念长时间不用都忘了,看来的吧统计书 ...

这个是最常见,也是最容易出现的统计错误,提醒大家别瞎用统计
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 |

本版积分规则

快速回复 返回顶部 返回列表