找回密码
 注册

微信登录,快人一步

QQ登录

只需一步,快速开始

查看: 1964|回复: 2

新研究发现,Meta-分析在方法学上有其先天不足和不可靠性

[复制链接]
发表于 2015-6-18 05:09 | 显示全部楼层 |阅读模式

马上注册登录,享用更多感控资源,助你轻松入门。

您需要 登录 才可以下载或查看,没有账号?注册 |

×
最新研究发现循证医学存“缺陷”
2015-06-01健康界作者:江华 杨浩 彭谨 分享到qq
最新研究发现,Meta-分析在方法学上有其先天不足和不可靠性,而且经典异质性检验在理论与统计学上也有缺陷。
过去二十年以来,统治整个临床研究领域的方法学范式是循证医学,对于临床医生而言,循证医学代表着三样东西:大样本前瞻性临床试验,尤其是大样本随机对照试验(RCT);Meta-分析;循证指南。循证指南基于RCT和Meta-分析,尤其是后者,在权威的循证医学国际组织Cochrane协作网的定义中,是所谓的“最高级别”的临床证据,被认为是制定指南以及指导临床医生进行诊疗决策最重要的科学依据。
Meta-分析的缘起
Meta-分析,简单来说,就是将来自于已经发表的临床试验数据,通过一定的规范化处理后,合并到一起,然后看看这合并后的结果,与原来的单个研究有什么不同或者相同之处。
既然可以做临床试验,为什么还需要Meta-分析?作为从循证医学进入中国之初就开始进行Meta-分析研究的医生和科学家,我们认为以下几个理由是主要的:
●大多数临床试验的样本量不够大。样本量小了,其对假说的验证能力就低了,但是大样本临床试验成本很高。把来自于很多个研究者的临床试验通过Meta-分析合并在一起,可以在不增加成本的情况,很快地增加样本量,从而减少达到有效样本量所需结论的成本。
●即使近年来单个试验样本量越来越大,但是越大样本的大型研究,其受到研究者和资助者主客观因素的影响也很多,设计可能未必很合理,得到的结论往往是良莠不齐。严格遵循国际标准的Meta-分析,会全面地梳理这些因素,从而为一些争论不休的问题理清思路,这一意义上,Meta-分析具有某种临床试验裁判官的位置。
●既然很多临床试验研究的对象具有某种相似性,为什么不把这些看起来相似的试验的数据合并在一起呢?
对于上世纪后半叶的临床研究者来说,这些理由是强有力的。因此,Meta-分析发展并大大兴旺起来。Meta-分析兴起之初,对于若干重要临床争论的解决提供了很好的路径,成为划时代的临床科学研究工具。
Meta-分析在方法学上的先天不足
但是,Meta-分析是具有先天缺陷的。这就是所谓的“异质性”(heterogeneity)。那么,什么是异质性呢?这个词对于统计专业之外的读者有点拗口,不过把它的反义词拿出来,就有助于理解了,那就是“一致性”(homogeneity),可以直观地理解为临床试验之间所具有的相似性。客观现实是:即使临床试验是针对同一类疾病、同种治疗手段而开展的,由于人和人之间具有的差异性,由于试验设计以及试验环境的差异性,我们不可能找到绝对相同的两个研究。但研究间可以存在大小不等的相似性。当在不同时间、地点或由不同研究者所进行的试验具有相当的相似性时,合并它们就是合理的。为达此目的,就必须确定一种分类界限:即从大量研究中找出一些具相似研究,并确认它们本质上的相似性,将它们和别的、本质上完全不同(差异过大)的研究区分开来。异质性指的就是这种存在于研究之间的、根本上的差异性。本质上不同的研究不应当合并,不解决异质性问题而进行的任何Meta-分析,是不科学的。
经典异质性检验:理论与统计学上的缺陷
Meta-分析的先驱者们深知异质性问题的关键性,从很早的时候起,他们就努力寻找测度异质性的方法。最终发展定量化评估方法,此即目前流行的以Q和I²为代表的所谓“异质性检验”。然而,我们刚刚发表的一个研究从数学上证明:这些经典的,已经袭用十余年的“异质性检验”方法学是有缺陷的。换句话说,过去十几年来的循证医学,其貌似强大的地基,实是建立于沙滩之上的。
Meta-分析的不可靠性:数学证明
科克伦教授(Cochran)及其同事们在创立Meta-分析时就发现,不同的临床试验在数据采集、样本的具体情况方面所具有的差异属性实在是太多了,要证明能够将来自不同研究的数据合并在一起分析在数学上是可接受的(legitimate),并不是那么容易。定义异质性并加以定量评价,一直是循证医学发展过程中在其方法学领域最为重要的问题之一。
Q统计量是用来评价Meta-分析研究间的差异总和的一种统计量。Q值越大,说明所纳入的研究之间存在越大的异质性;反之,Q值越小,则说明所纳入的研究之间的差异性越小。但Q的计算方法中隐含了对研究数目的依赖。当纳入研究的数量逐渐增大时,Q值将发生“过度膨胀”,从而造成假阳性检验结果(即不论研究是否真的来自于相似的抽样总体,只要研究数增加,Q值都会将最终结果判定为“来自于不同总体”)。为解决Q对研究数量不当依赖问题,英国循证医学专家希金斯(Higgins J)提出通过Q的计算公式中减去样本数的修正思路,他们将这一修正方法称之为“I²检验”,并认为I²因而比Q更为合理。希金斯将这一方法写成研究论文,发表于2003年的《不列颠医学杂志》(British Medical Journal,BMJ)。此后,I²迅速被业界接受为异质性度量的标准,被写入了包括Cochrane系统评价手册在内的几乎所有循证医学教科书,是如今几乎每一篇Meta-分析都会用到的方法。
但是,由四川省人民医院联合国内多家知名研究单位的多学科专家共同完成的这项研究,从数学上证明了上述经典方法是不可靠的。我们通过数值仿真证明:当样本数逐渐增大的时候,I²值将随着之而增加,其上升趋势单调不降(见下图)。这意味着只要研究样本量足够大,哪怕是根本不可能存在异质性的、来自同一总体的抽样,仍然会被I2检验判定为存在有异质性。这一研究也证明Q同样依赖于样本量的大小。
图1.jpg
(I²值随样本量增加而线性增加)
异质性检验本质上是为保障Meta-分析的可靠性,使其能够将来自多个临床试验的数据进行合并,扩大样本量从而实现检验假设所必须的效应量。然而,我们证明,随着研究数量的增加,合并了临床试验并使得样本量增加的Meta-分析,其异质性检验的结果完全不可靠。具有讽刺意味的是,现代临床试验在面对各种矛盾和似是而非的结论的时候往往乞灵于“更大样本的试验”。这两方面不可调和的矛盾说明了Meta-分析在逻辑上不能自洽,方法学基础存在重大缺陷。
反思建立在Meta-分析基础之上的循证医学
循证医学的创始人之一萨基特教授(David Sacket)在其名著《循证医学的教学与实践》(Evidence-Based Medicine:How to Practice and Teach EBM)中曾经指出,慎重、准确和明智地应用当前所能获得的最好的研究依据,同时结合医生的个人专业技能和多年临床经验,考虑病人的价值和愿望,将三者完美地结合制定出病人的治疗措施方可称为循证医学。然而,在循证医学向的发展进程中,由于制定证据分级体系时,过分强调Meta-分析和大样本RCT的作用,使得在实践中,临床研究者和广大的医务人员逐渐把最佳证据理解为:大样本RCT以及基于这类研究的Meta分析。随着时间的推移,越来越多的RCT和Meta-分析已经显示出各种自相矛盾性,使得临床医师无所适从。
如今我们已经认识到,任何RCT都将面对如下的、无法回避的挑战:对最终考察目标的可造成实质性影响的因素远远多于人们最初的预想。随机化试图控制的是存在于患者个体间的差异。本质上,个体差异反映的是从基因组到宏观表型的差异。随着对基因组认识的深化,我们认识到,影响特定临床表型(如血压、血糖水平、肿瘤类型)的基因数量十分众多。例如,与创伤后创面愈合功能密切相关的基因就有651个。这还仅仅是从基因组的角度来考虑。进一步考虑在转录、表达水平的影响因素,那么可影响临床结局的分子因素将以数量级增加。
假设这些影响因素在人群中的分布都是随机的,即正态分布,存在于个体间的、数以万千计的影响因素在数学上其实已经构成了有着数以万记维度的超高维空间。现实中的RCT,能纳入成千个样本的,已经是相当难得的大型研究了。面对上述本质上分布于超高维空间中的个体差异,即使有数以千计的研究对象,也几乎完全不可能是做到真正随机。此种情形下,对一个RCT中发现的存在于组间的临床结局的“显著性”差异,其真实原因有很大可能是由完全不可控的偏倚所造成的。
所以,应该认识到,RCT这一诞生于半个世纪之前的研究范式,其方法学基础是虚幻的:随机化可平衡个体变异,能够保证的仅仅是每个参加实验的对象均有“同等机会”被分配到试验组和对照组当中,但不能保证每个影响实验结局的因素都有“均等机会”被分配到两组当中。
引入新方法,建立新一代循证医学的研究范式
归根结底,RCT、队列研究以及病例-对照研究,其哲学本体其实并没有太大差别:此即观察和收集数据。神秘化、毫无节制地崇拜大样本、前瞻性临床试验以及基于这些试验的Meta-分析,实在是一种迷信。面对复杂的疾病生物现象,应该承认:第一代循证医学及其背后的、基于18-19世纪古典统计学思想的研究范式,到了应该被扬弃的时候。
实事求是的观点应该是:临床数据,不论是来前瞻性试验的,还是来自于临床日常工作中的,在经过适当的统一化和清理之后,是具有同等应用地位的。理想的新一代循证医学方法,应当建立在广泛性的原始数据开源基础上。
我们也深知,大范围的数据开源,还需等待一个较长的过程。在逐步转变的过程中,对于经过研究者整理的数据,依然有很大的进行“二次研究”的需求和必要性。在这过渡时期,各学科应该加强对数据报告规范性的要求,引入并开发一些适合于这些数据的模型。我们最近进行的一项对危重病患者最佳能量摄入区间的研究中,就已经发现,与经典的、基于“专家经验”的Meta-分析比较,基于无偏倚聚类的机器学习是更为合理的对研究间相似性和异质性进行判断的方法。新一代医学统计思路,应该基于谨慎细致的评估数据类型,选择最适合于数据的模型。此即:“数据驱动,模型适应之”,而非“模型驱动,数据适应之”。
针对有关统计学数据报告的规范性和研究重现性问题,我国知名统计学家谢益辉教授发布了基于R语言的一个工具包(package)。并倡导利用该工具包来撰写动态的统计报告。这一研究范式,可以很好的增加研究结果的可信性,从而避免些统计方法的使用错误,有利于后来的研究者对已发表研究的数据进行深入利用和挖掘。
因之,必须将临床数据与基础研究的数据相互结合,使机制性解释和临床宏观表型之间形成结合,使临床研究摆脱久已受人诟病的“黑箱模式”:其起点,是细致的描述从分子机制到临床过程的各种尺度上的复杂性。不再寄希望于仅仅使用“病死率”、“并发症率”、“住院时间”、“灵敏度”、“特异度”等很少一些指标来衡量临床干预或诊断措施的成败。一旦机理性和机制性过程能够与临床表型相结合,我们就能发展出真正精准、个体化的临床评估体系。
需要强调指出,循证医学先驱们所开创的临床研究哲学:以证据为基础,结合患者需求以及考虑卫生经济的可持续发展,依然是强有力的。新一代的医生和科学家,应当勇敢的接过前辈递给我们的接力棒,直面挑战,努力学习,毫不犹豫地跨过学科之间的界限与鸿沟,发展出全新一代的循证医学研究范式。我们深信,临床医学彻底的革命,或将以我们难以预计的速度到来。解决世界性医疗资源紧缺难题的钥匙,也正蕴含于其中。
(本文作者江华、杨浩、彭谨,单位均为四川省人民医院。另北京协和医院陈伟,四川省人民医院Charles Damien Lu对本文亦有贡献。)

评分

参与人数 1威望 +2 金币 +6 收起 理由
樵夫 + 2 + 6 赞一个!

查看全部评分

回复

使用道具 举报

发表于 2015-6-18 08:29 | 显示全部楼层
有时候可能meta分析是被滥用了,可能很多人为了各种原因去发表meta分析的文章
回复

使用道具 举报

发表于 2015-8-7 14:36 | 显示全部楼层
很多人把发表meta分析当做一种捷径,作为新手,慎重
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 |

本版积分规则

快速回复 返回顶部 返回列表