小编前几天阅读了一篇文章,名为“What’s wrong with Bonferroni adjustments” [1]。作者想要传递的一个核心观点是:不要进行Bonferroni校正,谢谢 !
在临床研究中,当进行多个统计学检验的时候,很多统计学家和杂志编辑往往会建议使用一个更加严格的“统计学意义”标准,而不是常规的 p < 0.05。此方法似乎可以让研究变得更加严谨,文献中多重检验校正的做法也很常见,甚至还登上了医学统计教科书,进一步加强了它的合法性。但此文章认为,Bonferroni校正是没有必要的,甚至对于统计推断来说是有害的! 如果零假设(Null hypothesis,也被译为原假设、虚无假设)是正确的(例如,两个组别的治疗效果没有差别),由于偶然性的存在,每20次检验中可以观察到1次显著性的差别(p < 0.05)。此类错误被称为I类错误,或者α。当进行了20次独立的检验(例如比较两个治疗组之间20个不同的变量),并且20次比较中零假设也都是正确的,那么发生至少一次统计学差异的概率就不再是0.05,而是0.64!可以通过公式计算上述研究的错误率:1 - (1 - α) ^ n,其中n为统计检验次数。所以,1 - (1 - 0.05)^20 = 0.64。而经过Bonferroni校正,可以降低每次检验的错误率,从而使整体研究的错误率保持在0.05。Bonferroni校正后,每次检验的显著性水平则变为 α / n = 0.05 / 20 = 0.0025。到目前为止,一切看上去非常合乎逻辑。
第一个问题:Bonferroni校正试图解决的问题其实是研究者们不感兴趣的零假设。整个研究的错误率(p = 0.05)仅适用于总体的零假设,即两组间的20个变量都相等。假如20个p值中有一个或多个小于0.0025,那么总体的零假设将会被拒绝。之后,我们可以说,两个组别中的20个变量不都相等,但无法回答到底哪个变量不相等,或者相差程度有多大。而研究者往往对于这些信息不感兴趣,他们更想要评估具体的每一个变量。Bonferroni校正的背后逻辑为:当下的某个统计学检验结果的解释将会随着其它检验的发生而不同。举个例子,两个不同组别的疗效是否有统计学差异将会依赖于做了多少次其它变量的比较!确实听上去匪夷所思,违背常理!数据中的证据应是数据本身到底说了什么,而不是做了多少次其它的统计学检验!Bonferroni校正的目的是为了降低I类错误,而I类错误的降低必然导致II类错误(当非零假设正确时,却接受了零假设的概率)的增加。而II类错误的严重性并不比I类错误要轻。举个例子,某一种治疗心梗的药物明明是有效的,但经过Bonferroni校正后,却被认为是无效的。我们也许会假装只做了一次检验(其实做了N次),在一篇文章中只汇报一个有利的p值,从而可以躲避审稿人的刁难!做Meta分析的人们将无事可做了,因为经过这么严格的校正,所有研究都没有统计学意义了!杂志社也会增加一个板块,称为“p值的更新”,在其中,新发表的将会被用来校正之前的研究。等等...
第一,当总体的零假设就是研究目的。比如,为了验证某一个疾病与HLA表型无关,我们可能会比较正常组和疾病组的所有抗原水平(可能有40种)。如果确实不存在关联,那至少出现一次统计学意义的概率为 1 - (1 - 0.05) ^ 40 = 0.87。在这种情况之下, Bonferroni校正可以避免做出过于冒进的结论。第二,当同样的统计检验重复的应用于样本的亚组,比如分层分析,根据年龄、性别、教育等变量。再如,将临床试验中的结果进行再一次分析也归类于上述情况。第三,当不存在研究假说时,或者说是在探索性分析阶段时,使用Bonferroni校正也是可以被接受的。不需要进行Bonferroni校正(此文的核心观点)!只要清晰描述此研究做了什么以及为什么,讨论每个结果的可能解释,最后帮助读者得出一个符合逻辑的结论即可。
如果有帮助,记得分享给需要的人!
[1].Thomas V Perneger, What’s wrong with Bonferroni adjustments, BMJ 1998;316:1236–8