最新研究发现循证医学方法学正面临巨大挑战
最新研究发现循证医学方法学正面临巨大挑战2015年6月2日江华 来源:科学公园
江华1,2,3,杨浩1,彭谨1,陈伟1,3,Charles Damien Lu1
作者单位
计算数学与生物统计学教研组,创伤代谢组多学科实验室,四川省医学科学院·四川省人民医院
电子科技大学临床医学院
中国医学科学院北京协和医院肠外与肠内营养科
利益冲突申明
研究者申明:无利益冲突,本文及相关研究未得到任何医药公司的赞助。研究者未持有任何与本研究直接相关的专利。本文的相关研究受四川省科学技术厅科技支撑项目(项目号:2012SZ0181, SZ20120209, 2014FZ0125,2015SZ0110)、成都市科学技术局科技惠民项目(11PPYB099SF-289, 12PPYB181SF-002)以及四川省医学科学院•四川省人民医院博士基金的支持。研究资助方没有参与本文设计、实施和撰写。
RCT
最新研究发现循证医学方法学正面临巨大挑战
Meta-分析是循证医学的主要方法学支柱之一
过去二十年以来,统治整个临床研究领域的方法学范式是循证医学,对于绝大多数临床医生而言,循证医学代表着三样东西:1)大样本前瞻性临床试验,尤其是随机对照试验(RCT);2)Meta-分析;3)循证指南。循证指南基于RCT和Meta-分析,尤其是后者。在权威的循证医学国际组织Cochrane协作网的定义中,基于Meta-分析的系统评价,是所谓的“最高级别”的临床证据,被认为是制定指南以及指导临床医生进行诊疗决策最重要的科学依据。Meta-分析,简单来说,就是将来自于已经发表的临床试验数据,通过一定的规范化处理后,合并到一起,然后看看这合并后的结果,与原来的单个研究有什么不同或者相同之处。
Meta-分析的缘起
既然可以做临床试验,为什么还需要Meta-分析?作为从循证医学进入中国之初就开始进行Meta-分析研究的医生和科学家,我们认为以下几个理由是主要的:1)大多数临床试验的样本量不够大,样本量小了,其对假说的验证能力就低了,但是大样本临床试验成本很高,把来自于很多个研究者的临床试验通过Meta-分析合并在一起,可以实现用很少的成本,很快的增加样本量,从而减少达到有效样本量所需的结论的成本;2)即使近年来单个试验样本量越来越大,但是越大样本的大型研究,其受到研究者和资助者主客观因素的影响也越多,设计可能未必很合理,良莠不齐的设计,得到的结果往往互相矛盾。严格遵循国际标准的Meta-分析,会全面的梳理这些因素,从而为一些争论不休的问题理清思路,这一意义上,Meta-分析具有某种临床试验裁判官的位置;理由3)既然很多临床试验,其所研究的对象具有某种相似性,为什么不把这些看起来相似的试验的数据合并在一起呢?
对于上个世纪后半叶的医学统计学家和临床研究者来说,这些理由是强有力的,医学统计学这门统计学的分支学科也似乎为实现这些目的准备好了良好的工具。因此,Meta-分析发展并大大兴旺起来。Meta-分析兴起之初,对于若干重要临床争论的解决提供了很好的思路,成为当时条件下,划时代的一种临床科学研究工具。很难想象,如果没有Meta-分析初期的成功,1992年,“循证医学”这概念是否能被正式的被提出,以及很快的成为统治我们今天临床医学实践的方法论。
Meta-分析在方法学上的先天不足
但是,Meta-分析是具有某种先天缺陷的,这一缺陷,从其诞生之初就被人发现,并且如影随形的伴随着它。这就是所谓的“异质性”(heterogeneity)。那么,什么是异质性呢?这个词对于统计专业之外的读者有点拗口,不过把它的反义词拿出来,就有助于理解了,这就是“一致性”(homogeneity),可以直观的理解为临床试验之间所具有的相似性。客观现实首先是:即使临床试验是针对同一类疾病、同种治疗手段而开展的,由于人和人之间具有的差异性,由于试验设计以及试验环境的差异性,我们不可能找到绝对相同的两个研究,但研究间可以存在大小不等的相似性。显然,根据Meta-分析的理论假说和哲学基础,只有当在不同时间、地点或由不同研究者所进行的试验具有相当的相似性时,合并它们才是合理的。为达到这一目的,就必须人为的确定一种分类界限:即从大量研究中找出具有一些相似研究,并确认它们本质上的相似性,进而将它们和别的、本质上完全不同(差异过大)的研究区分开来。换句话说,如果研究之间具有非常大的差异,就应该认为他们本质上是不同的:异质性指的就是这种存在于研究之间的、根本上的差异性。本质上不同的研究是不应当合并的。不解决异质性问题而进行的任何Meta-分析,是不科学的。
经典异质性检验:理论与统计学上的缺陷
Meta-分析的先驱者们深知异质性问题的关键性,从很早的时候起,他们就开始努力去寻找测度异质性的方法。首先是对研究设计相似性进行定性评估。后来又发展出基于统计的定量化的评估方法,此即目前流行的以Q和I2为代表的所谓“异质性检验”。然而,一个由我们所完成的,刚刚发表于PLOS ONE的研究从数学上证明,这些经典的,已经袭用十余年的“异质性检验”其方法学是有缺陷的。换句话说,过去十几年来的循证医学,其貌似强大的地基,实是建立于沙滩之上的。
经典的Meta-分析的不可靠性:数学证明
科克伦教授(Cochran)及先驱者们在创立Meta-分析时就发现,不同的临床试验在数据采集、样本的具体情况方面所具有的差异属性实在是太多了,要证明能够将来自不同研究的数据合并在一起分析在数学上是可接受的(legitimate),并不是那么容易。所以,定义异质性并加以定量评价,一直是循证医学发展过程中在其方法学领域最为重要的问题之一。这一问题,在Q统计量和I2统计量相继问世后,似乎得到了解决。
Q统计量是用来评价所有研究的两两之间的差异的总和。Q值越大,则说明所纳入的研究之间存在越大的异质性(即研究之间存在差异);反之,Q值越小,则说明所纳入的研究之间的差异性越小。但是,Q值的计算方法中隐含了对研究数目的依赖。这样一来当纳入研究的数量逐渐增大时, Q值也将“过度膨胀”,从而造成假阳性检验结果(即不论研究是否真的来自于相似的抽样总体,只要研究数增加,Q值都会将最终结果判定为“来自于不同总体”)。为解决Q对研究数量不当依赖问题,英国循证医学专家希金斯(Higgins J)等人提出可通过Q的计算公式中减去样本数的修正思路,他们将这一修正方法称之为“I2检验”,并认为I2因而比Q更为合理。希金斯将这一方法写成研究论文,并发表于2003年的《不列颠医学杂志》(British Medical Journal,BMJ)。此后,I2迅速被业界接受为异质性度量的标准,被写入了包括Cochrane系统评价手册在内的几乎所有循证医学教科书,是如今几乎每一篇Meta-分析都会用到的方法。
但是,由四川省人民医院联合国内多家知名研究单位(合作单位包括北京协和医院、第三军医大学等)的多学科专家共同完成的一项最新研究,从数学上证明了上述经典方法是不可靠的。该研究通过数值仿真证明:当样本数逐渐增大的时候,I2值将随着之而增加,其上升趋势单调不降(图1)。这意味着只要研究样本量足够大,哪怕是根本不可能存在异质性的、来自同一总体的抽样,仍然会被I2检验判定为存在有异质性。这一研究也证明Q同样依赖于样本量的大小。
异质性检验本质上是为保障Meta-分析的可靠性,使其能够将来自多个临床试验的数据进行合并,扩大样本量从而实现检验假设所必须的效应量。我们的研究从数学上证明,随着研究数量的增加,合并了临床试验并使得样本量增加的Meta-分析,其异质性检验的结果完全不可靠。与此同时,具有讽刺意味的,是现代临床试验在面对各种矛盾和似是而非的结论的时候往往乞灵于“更大样本的试验”。这两方面不可调和的矛盾说明了Meta-分析在逻辑上不能自洽,其方法学基础存在重大缺陷。
我国科学家的这一研究,发表于刚刚于2015年5月29日出版的《公共科学图书馆·综合》杂志最新一期。
图1: I2值随样本量增加而线性增加
对建立在Meta-分析基础之上的循证医学的反思
循证医学的创始人之一萨基特教授(David Sacket)在其名著《循证医学的教学与实践》(Evidence-Based Medicine: How to Practice and Teach EBM)中曾经指出,慎重、准确和明智地应用当前所能获得的最好的研究依据,同时结合医生的个人专业技能和多年临床经验,考虑病人的价值和愿望,将三者完美地结合制定出病人的治疗措施方可称为循证医学。然而,在循证医学向临床推广的发展进程中,由于制定证据分级体系时,过分的强调Meta-分析和大样本RCT了作用(毫不讳言,很多国际大型制药企业对此种误导性的发展起了很大的推波助澜的作用),使得在实践中,临床研究者和广大的医务人员逐渐把最佳证据理解为:大样本的RCT以及基于这类研究的Meta分析。但随着时间的推移,越来越多的RCT和Meta-分析逐渐显示出各种自相矛盾性,反而使得临床医师无所适从。例如临床营养学界最近对于两个发表于知名杂志的、结果完全相互矛盾的危重病患者最佳能量和宏量营养素摄入的RCT,应当如何取舍和解读,就陷入到巨大的争论中。
很多时候RCT结果的相互矛盾,存在着学术因素之外的影响。即使不考虑这些非学术因素,很多其数据本身没有问题的临床试验,其假设检验以及对数据的解读仍存在着深层次的矛盾和困境。如今我们已经认识到,任何RCT都将面对如下的、无法回避的挑战:对最终考察目标的可造成实质性影响的因素远远多于人们最初的预想,单纯的随机分组,并不能在数学上保证把每个样本的各个参量都平衡的分配到各个研究组当中。
随机化试图控制的是存在于患者个体间的差异。本质上,个体差异反映的是从基因组到宏观表型的差异。随着对基因组认识的深化,研究者已经发现,影响特定临床表型(如血压、血糖水平、肿瘤类型)的基因数量从几十到数百个不等。例如,与创伤后创面愈合功能密切相关的基因就有651个。这还仅仅是从基因组的角度来考虑。进一步考虑在转录、表达水平的影响因素,那么可影响临床结局的分子因素将以数量级增加。
即使假设这些影响因素在人群中的分布都是随机的,即正态分布,这存在于个体间的、数以万千计的影响因素在数学上其实已经构成了有着数以万记维度的超高维空间。现实中的RCT,能纳入成千个样本的,已经是相当难得的大型研究了。然而,面对上述本质上分布于超高维空间中的个体差异,即使有数以千计的研究对象,也几乎完全不可能是做到真正随机。此种情形下,对一个RCT中发现的存在于组间的临床结局的“显著性”差异,其真实原因有很大可能是由完全不可控的偏倚所造成的。
综上,我们可以看出,在今天这样一个充分认识到从基因到临床表型所拥有的巨大差异的时代,在这样一个患者的临床资料每天都在以海量剧增的时代,RCT这一诞生于半个世纪之前的研究范式,其方法学基础是虚幻的:随机化可平衡个体变异,能够保证的仅仅是每个参加试验的对象均有“同等机会”被分配到试验组和对照组当中,但是不能保证每个影响试验结局的因素都有“均等机会”被分配到两组当中。
引入新方法,建立新一代循证医学的研究范式,重新认识“循证临床实践”
归根结底,无论是RCT,队列研究,亦或是病例-对照研究,其方法学的哲学本体其实并没有太大差别:观察和收集数据。根据数据,对宏观表型背后的机制做出推断,仅此而已。神秘化、毫无节制的崇拜大样本、前瞻性临床试验以及基于这些试验的Meta-分析,恐有落入另一种形式的迷信之嫌。随着新兴的计算技术、新一代统计方法和物理学方法迅猛的发展,以及快速的将其方法论渗透进入临床研究领域,面对复杂的疾病生物现象,应该大胆的承认:第一代循证医学及其背后的、基于18-19世纪古典统计学思想的研究范式,到了应该被扬弃的时候。
我们认为,在已经进入人工智能和大数据的这样一个时代中,首先需要实事求是的承认:数据,不论是来自于临床试验的前瞻性数据,还是来自于临床日常工作中的回顾性数据,在经过适当的统一化和清理之后,应该具有同等的应用地位。循证医学研究,其理想的新一代方法应当建立在广泛性的原始数据开源基础上。使用数据挖掘和机器学习等方法对上述数据进行深入挖掘,将肯定可以得到很多新知识。
与此同时,我们也深知,大范围的数据开源,或许还需等待一个较长的认同和接受的过程。在这一逐步转变的过程,对于已经经过研究者整理的数据,依然有很大的进行“二次研究”的需求和必要性。我们认为,在这一过渡的时期,各个学科应该加强对数据报告规范性的要求,同时引入并开发一些适合于这些数据的模型,也将对证据的整合和生产起到很好的作用。
我们最近进行的一项对危重病患者最佳能量摄入区间的研究中,就已经发现,与经典的、基于“专家经验”的Meta-分析比较,基于无偏倚聚类的人工智能方法是更为合理的对研究间相似性和异质性进行判断的方法。这意味着,我们将不再依赖于很少的几个统计模型,强行要求数据必须“适合”特定模型,而是反过来,我们将谨慎细致的评估数据类型,选择最适合于数据的模型。换而言之,新一代循证医学,将是“数据驱动,模型适应之”,而非“模型驱动,数据适应之”。
针对有关统计学数据报告的规范性和研究重现性问题,我国知名的统计学家谢益辉教授发布了基于R语言的一个工具包(Knitr package)。并倡导利用该工具包来撰写动态的统计报告,目的是使研究论文的读者能够重复研究中的统计和计算过程,并验证其报告的统计结果。通过这样的报告范式,可以很好的增加研究结果的可信性,方便发现并避免一些统计方法的使用错误,最终,还将有利于后来的研究者对已发表研究的数据进行深入利用和挖掘。
在此基础之上,正如转化医学和整合医学研究哲学所提倡的,我们必须将临床数据与基础研究的数据相互结合,运用适当的手段,开发合适的计算技术,使机制性解释和临床宏观表型之间能够形成结合,早日使临床研究摆脱久已受人诟病的“黑箱模式”。临床研究的前提,是接受疾病的动态发展和充满复杂性的现实,其起点,是认真细致的描述从分子机制到临床过程的各种尺度上的复杂性。不再寄希望于仅仅使用“病死率”、“并发症率”、“住院时间”、“灵敏度”、“特异度”等很少一些统一指标衡量临床干预或诊断措施的成败。针对复杂疾病,一旦机理性和机制性过程能够与临床表型相结合,我们就能发展出疾病特异和患者个体化相结合的,真正管用的临床评估体系。实现上述目标,必须要有临床工作者和基础医学以及数学、物理学专业人员紧密结合的多学科研究团队来共同完成。
需要强调指出,由循证医学先驱们所开创的临床研究哲学:以证据为基础,结合患者需求以及考虑卫生经济的可持续发展,依然是有效的。斯人已逝,作为新一代的医生和科学家,我们应当勇敢的接过前辈递给我们的接力棒,直面挑战,努力学习,毫不犹豫的跨过学科之间的界限与鸿沟,从而发展出全新一代的循证医学研究范式,我们称之为“循证医学2.0时代”。从1991年,“Evidence-based Medicine”这概念的提出到今天,已经25年过去了。25年前,没有人能够预见到今日这样一个计算技术和互联网技术快速发展的情形,我们相信,临床医学的一场彻底的革命,也将以我们难以预计的速度到来。解决世界性医疗资源紧缺难题的钥匙,或许也正蕴含于其中。
注:本文中,用“临床试验”指代包括随机对照研究、队列研究等为验证特定疗法、诊断方法而在临床条件下进行的科学研究。
参考文献
Li SJ, Jiang H, Yang H, et al. The dilemma of heterogeneity tests in Meta-analysis: achallenge from a simulation study. PLOS ONE 10(5): e0127538.doi:10.1371/journal.pone.0127538
HigginsJ, Thompson S, Deeks J, Altman Measuring inconsistency in meta-analysis. BMJ. 2003; 327: 557-560.
Borenstein M. Fixed-Effect versusRandom-Effects Models. 见: Borenstein M, Hedges L, Higgins J, Rothstein H, editors. Introduction to Meta-Analysis. U.S.:John Wiley & Sons, Ltd; 2009. pp. 79-94.
Sackett DL. Introduction. 见: Sackett DL eds. Evidence-based Medicine: How to Practice and Teach EBM. Churchill Livingstone,London, 2000. pp.1-2
HeideggerCP, Berger, MM, Graf S, et al. Optimisation of energy provision with supplemental parenteral nutrition in critically ill patients: a randomised controlled clinical trial. Lancet. 2013;281(9864): 385-393
Casaer MP, Wilmer A, Hermans G, et al. Role of disease and macronutrient dose in the randomized controlled EPaNIC trial: a post hoc analysis. Am J Respir Crit Care Med. 2013, 187(3): 247-255.
江华. 能量摄入模式与危重症患者死亡风险的相关性. 中华医学会第九届全国肠外与肠内营养学学术会议. 2015.5.北京.
杨浩,江华,彭谨,等. R与医学统计的未来. 兰州大学学报(医学版). 2014,40(4):93-97
吴喜之. 复杂数据统计方法-基于R的应用.北京:中国人民大学出版社, 2013:7
Xie YH. Knitr: A general-purpose package for dynamic report generation in R. R package version 1.10.5.http://cran.r-project.org/web/packages/knitr/index.html. accessed in May 20, 2015
江华,杨浩,曾俊,等. 肿瘤分析医学:基于复杂网络和非平衡态动力学的研究新范式. 肿瘤代谢与营养电子杂志,2015,2(2):印刷中
转载声明:本文来自科学公园(www.scipark.net),转载请注明作者和出处。 先收藏,之后再认真学习。谢谢老师分享 本帖最后由 胡杨 于 2015-7-10 18:05 编辑
过去仅是认为“循证干预是最科学的实践,META分析是最科学的方法,文献质量是最糟糕的问题”。
读了本文,看来不仅文献问题多多,循证的手段在大数据时代,也遭到质疑和挑战。
真是“挑战现实,学无止境”。不断改变着人类既往的认知。
更难得可贵的是,挑战来源于中国的科研团队,可喜可贺。可以理解的是,CSR的抽样局限性源于那个时代,穷举也只有大数据时代才能够实现。因此,META并没有错,只能说是时代进步需要变革的结果。 非常好的资料,收藏了谢谢老师。 好的循证医学是建立在医学文献之上的。对循证医学而言,原始的医学研究最重要。 刚刚开始学习Meta-分析,谢谢分享,可不能盲目的推崇
页:
[1]