
临床研究中的多重比较:以JAMA文献为例讲讲Hochberg法
本文整理自2026年3月5日发表在《JAMA》上的一篇文章,原文标题为“The Hochberg Procedure for the Comparison of Multiple End Points”。
在临床研究中,通常需要对治疗组与对照组的多个结局或终点进行比较。相比单一终点,对多个终点分析能更全面地评估疗效,但也伴随着风险。
如果一种疗法实际并没有临床益处,那么每增加一个终点的比较,就多了一次因为随机误差而产生“获益假象”的可能,这在统计学上被称为I类错误(Type I error)[1]。
随着终点数量的增加,出现至少一个“假阳性”的累计概率就会变得过高。为了避免这种情况,当研究涉及多个终点时,通常需要采用更严格的统计标准,以控制得出假阳性结论的风险[1,2]。
2025年Anker等在JAMA期刊发表了FAIR-HF2试验的结果[3],该研究旨在观察静脉补铁对伴有铁缺乏的收缩性心衰患者发病率和死亡率的影响。在该试验中,研究者设置了3个主要终点(与心血管死亡和心衰住院相关)。为了确保这3个终点的评估不会产生过多的假阳性风险,作者采用了Hochberg法进行校正[2-4]。
为什么要使用Hochberg法?
在证明疗效更优的临床试验中,如果只检测单一终点,通常会计算一个P值。如果 P值低于预设的阈值(通常单侧检验为0.025,双侧检验为0.05),研究则宣称治疗有效。在实际治疗无效的情况下,这套流程可将误判有效的风险(假阳性)控制在2.5%以内(假设单侧检验)。
然而,当检测多个终点时,如果对每个终点都沿用上述标准,那么每次 2.5% 的误判风险就会不断累积。
举个例子:如果某种疗法实际上完全无效,而研究同时检测8个互不相关的终点,那么在8个结论中至少出现1个“假阳性”结论的概率将飙升至约18%。
为了降低这种风险,我们需要使用“多重性校正(Multiplicity corrections)”。这些方法通过为每一次比较设置更严苛的门槛,确保即使进行了多次对比,在所有终点中出现一个假阳性结论的总概率,依然维持在预设的限制之内(例如2.5%)。
在探讨多个终点时,这种“至少在一个终点上犯错”的概率被称为族系错误率(Family-wise error rate, FWER)。这里的“族系(Family)”指的是一组终点对比或假设检验[5]。
最广为人知的多重性校正方法是Bonferroni校正,其做法非常简单粗暴:将显著性阈值(如0.025)直接除以检测的终点数量K,即新的阈值= 0.025/K[1,2,6]。
虽然Bonferroni校正能严格控制族系错误率,但也被认为过于保守[6]。如果一种疗法确实具有临床疗效,过于保守的校正方法会降低统计效能。也就是说,由于门槛设得太高,我们可能会错失发现获益的机会,导致研究出现“假阴性”。
为了解决这个问题,研究者开发了其他的多重性校正方法。这些方法在确保控制总错误率的前提下,通过对一部分比较采用稍宽松的准则,获得更高的统计效能,增加检测出真实疗效的机会,Hochberg法就是这样一种校正方案[2,4,7]。
Hochberg法具体是如何操作的?
在Hochberg法中,每个终点首先独立进行分析,然后将得到的P值按从大到小的顺序排列。该方法从最大的P值开始,逐一进行:
1.检查最大的P值
如果最大的P值小于或等于总体的显著性水平(例如单侧0.025),那么该终点以及后面P值更小的终点,都被视为具有统计学显著性。
2.如果第一步不显著,评估第二个P值
如果最大的P值没有达到标准,则转为评估第二大P值。此时,对比的阈值会变得更严苛,即用原始阈值除以2(例如0.025/2=0.0125)。如果这个P值小于该阈值,那么该终点以及剩余P值更小的终点都视为显著。
3.以此类推
如果第二大P值仍不显著,则将第三大P值和原始阈值除以3(例如0.025/3=0.0083)进行比较。这个过程一直持续到某个P值达到对应的标准,或者所有P值都评估完毕。
其核心逻辑在于:只要在任何一步得到了显著的结果,那么该结果以及排位更靠后(即P值更小)的终点,全部判定为显著。
Hochberg法的替代方案与局限性
除了Hochberg法,还可以选择:
不进行任何校正:当然这会导致极高的假阳性风险。
Bonferroni校正:如前所述,该方法过于保守,在疗法确实有效时容易得出假阴性的结论。
Holm校正:这种方法与 Hochberg 法类似,但它是从最小P值开始比对。它比Bonferroni法的效能高,但略逊于Hochberg法[7]。
另一种替代方案是逐步守门法(stepwise gatekeeping procedure),即在分析数据前预先设定检验顺序来控制假阳性风险。例如,按照终点事件的重要性从高到低进行检验,一旦出现第一个阴性结果即停止检验,但不会调整单个检验的统计显著性标准[8]。
包括Hochberg法在内的多重性校正,核心在于控制假设检验中的假阳性,结论通常简化为二元的"是"或"否"。在许多研究情境下,相较于单纯关注统计学显著性,更重要的是估计治疗效应值的大小并量化这些估计值的不确定性。
不同多重性校正方法可能导致不同结论
对于同一组数据,Hochberg法可能显示某些终点存在获益,而另一种方法可能显示另一组终点具有益处。
预先指定一种校正方法(如Hochberg法)有助于控制误差风险,然而,更严格的标准也增加了不能识别出疗法所有实际获益的风险。如果有一个终点明显最重要,那么将其作为唯一的主要终点进行比较而不进行任何校正,将其余终点指定为次要终点,将增加该终点取得阳性结果的机会。在设计临床试验时,研究者应选择与自身研究目标最契合的终点指标和检验方法。
需要注意的是,应将Hochberg法与名称相似的Benjamini-Hochberg法区分开来[9]。这两种方法在不同场景下使用:Hochberg法通常用于临床研究,以控制族系错误率;Benjamini-Hochberg法用于控制另一种指标——错误发现率(False Discovery Rate, FDR),即所有被拒绝的假设中假阳性的期望比例。错误发现率是一种相对宽松的误差度量标准,常用于基因组学、神经影像学等高维度或大规模的多重检验场景。
案例分析:Hochberg法在FAIR-HF2试验中的应用
FAIR-HF2试验采用了Hochberg法比较治疗组与对照组的3个主要终点[3]:
(1)心血管死亡或首次因心衰住院的时间;
(2)因心衰住院的总次数;
(3)在转铁蛋白饱和度
低于20%的亚组患者中,心血管死亡或首次因心衰住院的时间。
将分析得到的双侧P值按从大到小排序如下:
P = 0.12(心衰住院总次数)
P = 0.07(转铁蛋白饱和度低的亚组的终点)
P = 0.04(总体人群的心血管死亡或首次住院时间)
Hochberg法的判定过程如下:
首先将最大的P值 (0.12) 与预设的显著性水平0.05进行比较。由于0.12 > 0.05,未达到显著性。
接着,将下一个P值 (0.07) 与调整后的阈值0.025(即0.05/2)进行比较,依然未达到显著性。
最后,将最小的P值 (0.04) 与0.0167(即0.05/3)进行比较,结果仍未达标。
由于这三个观测到的P值都没有低于各自对应的判定阈值,因此在统计学上,没有任何一个终点被认为具有统计学显著性。
如何解读该结果?
在FAIR-HF2试验中,3个主要终点在数值上显示出获益的趋势,但根据Hochberg 法的校正标准,均未达到统计学显著性。基于此,不能得出具有统计学意义的阳性结论。但这绝不等同于证明了该疗法无效[10]。
在当前的多重检验框架下虽不显著,但这并不能排除该疗法在该人群中的真实获益。这一点对于“心血管死亡或首次因心衰住院的时间”这一终点尤其重要,其原始P值为 0.04。如果研究在设计时将这个终点作为唯一的主要终点,结果本可达到统计学显著性,但代价是我们将无法对另外两个终点做出独立的统计推断。
这正是多重性校正方法的典型特征:核心目标是在得出阳性结论时确保结论的有效性(即严格控制假阳性风险),但代价是当结果接近显著性边界时,对阴性结论的解读将变得困难。
附录:原文献的统计方法描述
JAMA这篇文献,在统计方法中介绍Hochberg法时表述如下,供大家参考:
The 3 primary end points were considered statistically significant if the corresponding 2-sidedP values fulfilled at least 1 of the following conditions: (1) P≤.05 for all 3 of the end point comparisons, (2) P≤.025 for 2 of the end point comparisons, or (3) P≤.0167 for any of the 3 end point comparisons (Hochberg procedure). The Hochberg procedure controls for the family-wise type I error rate and should not be confused with the Benjamini-Hochberg procedure, which controls for the false discovery rate and is a weaker criterion than the type I error rate. Further explanation of the Hochberg procedure and examples of its application in heart failure trials are provided elsewhere. The family-wise type I error rate across the 4 secondary end points, which is formally tested only if all primary hypotheses are rejected, was also controlled for using the Hochberg procedure.
参考文献:
1. Biometrics. 1987;43(3):487-498.
2. JAMA. 2014;312(5):543-544.
3. JAMA. 2025;333(22):1965-1976.
4. Biometrika. 1988;75(4):800-802.
5. Stat Med. 2020;39(9):1407-1413.
6. BMJ. 1995;310(6973):170.
7. Stat Med. 1997;16(22):2529-2542.
8. JAMA. 2017;318(14):1385-1386.
9. J R Stat Soc B. 1995;57(1):289-300.
10. JAMA. 2023;329(23):2023-2025.
文章整理自:JAMA. 2026 Mar 5. doi: 10.1001/jama.2026.0191.
来源:“医咖会”微信公众号
原标题:《临床研究中的多重比较:以JAMA文献为例讲讲Hochberg法》