对药物临床试验中置信区间法预设检验界值的考虑

Chin J Clin Pharmacol 2487
Vol. 35 No. 19 October 2019（ Serial No. 297）
对药物临床试验中置信区间法预设检验界值的考虑
Consideration for the pre － specified margin of the confidence interval approach in
drug clinical trials
李新旭，唐智敏，辛晓娜，摘要：优效、等效和非劣效试验是药物临床试验中广泛应用的试验方法。其置信

王骏区间法的预设检验界值是事关这些试验成功与否的关键因素之一。检验界值设
定不当将会推断出错误的试验结论。为了促使药品临床试验的检验界值设定更
加科学合理，本文阐述了对 3 种试验方法的检验界值概念、度量类型、设定条件、
设定方法、对称性问题以及检验界值分别与 P 值和样本量之间关系的考虑。
（国家药品监督管理局药品审评中心，北京
关键词：药物临床试验；置信区间法；预设检验界值；考虑
100022）
DOI： 10. 13699 / j. cnki. 1001 － 6821. 2019. 19. 077
中图分类号：Ｒ972. 6 文献标志码： C
LI Xin － xu，TANG Zhi － min，文章编号： 1001 － 6821（ 2019） 19 － 2487 － 04
XIN Xiao － na，WANG Jun

Abstract： Superiority，equivalence and non － inferiority trials are widely
used in drug clinical trials. Specifying margin of the confidence interval
approach in advance is one of the key factors that affect the success of
（ Center for Drug Evaluation，National
these trials. The inappropriate margin will lead to the incorrect trial con-
Medical Products Administration，Beijing
clusions. In order to promote the more scientific and rational margin in
100022，China）
clinical drug trials，this paper elaborates the consideration for the con-
cept，measurement type，specified condition，specified method，symmetry
issue of the margin，as well as the relationship between the margin and P
value and the relationship between the margin and sample size in all three
types of trials．
Key words： drug clinical trial； confidence interval approach； pre －
specified margin； consideration
优效、等效和非劣效试验是药物临床试验中广泛应用的试验方
法。其置信区间（ confidence interval，CI）方法的预设检验界值是事关
这些试验成功与否的关键因素之一。研究显示，很多试验的非劣效
［1 － 2］
界值设定方法不合理，或未能提供确定非劣效界值的合理理
［3 － 4］
由，在一些抗肿瘤药物临床试验中倾向使用较大的非劣效界
［5］
值。检验界值设定不当将会推断出错误的试验结论，并导致医师
［6］
在临床实践中对试验结果的解读产生困惑，需要引起申办方和监
收稿日期： 2019 － 08 － 26 管机构的关注。为了促使药品临床试验的检验界值设定更加科学合
定稿日期： 2019 － 09 － 16
理，本文阐述了对 3 种试验方法的检验界值概念、度量类型、设定条
基金项目：国家“重大新药创制”科技重大专项
资助项目（ 2017ZX09101001）件、设定方法、对称性问题以及检验界值与 P 值和样本量之间关系的
作者简介：李新旭（ 1978 －），男，副研究员，主考虑。
要从事药品的技术审评工作
1 检验界值的概念
通信作者：王骏，研究员
MP：（ 010） 85243094 优效试验是指验证试验药的疗效优于对照（阳性对照药或安慰
E － mail： wangj@ cde. org. cn 剂）的试验，等效试验是指验证 2 种或多种治疗的差别大小在临床
2488 中国临床药理学杂志
第 35 卷第 19 期 2019 年 10 月（总第 297 期）
上并无重要意义的试验，非劣效试验是指验证试验药及 95% CI 为 1. 44 （ 0. 90，2. 36），非劣效界值为 0. 80

的疗效在临床上不劣于对照（阳性对照药或安慰剂）的（相对度量）， 95% CI 的下限大于非劣效界值，可认为
［7］
试验。检验界值是指在药品临床试验中所能接受的试验药非劣效于阳性对照药。
［8］
试验药相对于对照药的最小或最大临床疗效差异。选择不同度量类型的统计评价及其对应的检验
优效、等效与非劣效试验之间的关系与检验界值界值，会对试验的把握度和检验效能产生影响，因此
［13］
密切相关。我们首先假设优效、等效与非劣效界值是在试验设计阶段必须仔细考虑这种选择。例如，
相同的，用 Δ 表示检验界值，μ T 表示试验药的平均疗试验组和对照组中不良结局比例在研究 1 中分别为
效，μ C 表示对照（阳性对照药或安慰剂）的平均疗效， 0. 2 和 0. 4，在研究 2 中分别为 0. 1 和 0. 2，如果选择
假设在 μ C 右侧为疗效逐渐变优，在左侧为疗效逐渐的统计评价和检验界值为相对度量，则 2 个研究可能
［9］
变劣，如图 1A 所示。如果 μ T 落在（ μ C － Δ，μ C + Δ）得到相同的研究结论（ 2 个研究中 2 组风险比均为
的等效限内，则试验药的疗效与对照等效；如果 μ T ＜ 0. 5），如果选择绝对度量，可能得到不同的结论（研究
μ C － Δ，则试验药的疗效劣于对照；如果 μ T ＞ μ C + Δ， 1 中 2 组风险差值绝对值为 0. 2，研究 2 中为 0. 1 ）。
则试验药的疗效优于对照；如果 μ T ≥μ C － Δ，则试验与此相反，假设试验组和对照组中不良结局比例在研
药的疗效非劣于对照。究 1 中分别为 0. 2 和 0. 4，在研究 2 中分别为 0. 5 和
在实际应用中，优效试验是通过差异性检验进行 0. 7，如果选择的统计评价和检验界值为绝对度量，则
统计推断的，在试验设计时一般不考虑优效界值或者 2 个研究可能得到相同的研究结论（ 2 个研究中 2 组
默认为 0，即 Δ = 0，这是不同于等效和非劣效界值之风险差值绝对值均为 0. 2），如果选择相对度量，可能
［10 － 11］
处。如图 1B 所示，如果 μ T ＞ μ C ，则试验药的疗得到不同的结论（研究 1 中 2 组风险比为 0. 5，研究 2
效优于对照。中为 0. 7）。
2 检验界值的度量类型 3 检验界值的设定条件
非劣效试验的统计评价度量分为绝对差异（如均美国食品药品监督管理局（ FDA）指出，在非劣效
值差、率差、风险差等）和相对差异（如率比、风险比、试验中设定检验界值应基于“恒定假设（ constancy
［14］
优势比等），因此非劣效界值也相应分为绝对度量和 assumption） ” 。对阳性对照药相对于安慰剂的疗效
［12］
相对度量。优效界值和等效界值的度量类型与非差异估计的证据多源于既往临床试验，应尽可能确保
劣效界值相同。对于统计评价度量为相对差异的优本次非劣效试验中阳性对照药的疗效与既往临床试
效试验中，在实际应用中往往不考虑优效界值或者默验保持一致，即满足恒定假设。患者特征、医疗技术
［6］
认为 1，即 Δ = 1 。图 1 以绝对度量为例阐述了检验或标准、剂量或治疗方案、入选标准、依从程度、研究
界值的概念，图 2 举例说明了检验界值的绝对度量和终点、分析方法等所有重要研究设计和实施方面的因
相对度量。素均可影响恒定假设。只有当前非劣效试验与其阳
如图 2A 所示，假设某试验药与阳性对照药的治性对照药的历史试验在所有重要研究设计和实施方
愈率差值及 95% CI 为 3. 6% （－ 1. 6% ，9. 1% ），非劣面均保持一致时，历史试验才可用于估计当前非劣效
［14 － 15］
效界值为－ 2. 0% （绝对度量），95% CI 的下限大于非试验的阳性对照药疗效和非劣效界值。
劣效界值，可认为试验药非劣效于阳性对照药。如图违反恒定假设可能导致非劣效界值过大或过小，
［12］
2B 所示，假设某试验药与阳性对照药的治愈率比值从而得到错误的非劣效结论。例如，在某历史
图1 优效、等效及非劣效试验与检验界值
Figure 1 Superiority，equivalence and non － inferiority trials 图2 检验界值的绝对度量和相对度量
and their margins Figure 2 The absolute and relative measures of margins
试验中阳性对照药相对于安慰剂的临床获益为 30% ，效结果为低优，则选择上限作为 M1 ）。在选择 M1 时

假设这种临床获益随着时间推移而减少（违反恒定假应考虑历史试验中的恒定假设以及观察到的疗效变
设），即在当前非劣效试验中该阳性对照药相对于安异性。与阳性对照药有关的所有历史试验以及这些
慰剂的临床获益可能仅为 10% ，这意味着当前非劣效试验中所有随机患者通常都应该被用于确定 M1 ，以
界值即使保留 50% 的阳性对照药相对于安慰剂的历确保对阳性对照药疗效做出更可靠的估计，并避免在
史临床获益，也超出了该阳性对照药相对于安慰剂的选择部分历史试验时存在偏倚。为了降低恒定假设
全部当前临床获益，可能得到实际上劣效于安慰剂的的不确定性，也可采用“折扣”策略（如减半）确定 M1 ，
试验药却非劣效于阳性对照药的结论。即将历史试验的估计疗效通过一定幅度的“折扣 ”转
由此可见，违反恒定假设也是导致“生物爬行现换为当前非劣效试验的 M1 。这应该区别于确定非劣
［16］
象（ bio － creep） ”的关键因素。生物爬行现象是效界值（ M2 ）时的损失比例（ r）。
指，由于违反恒定假设，可能导致对阳性对照药相对在确定 M1 之后应当运用临床判断确定 M2 。M2
于安慰剂的临床获益的历史估计产生偏倚，这种偏倚为在临床上可接受的试验药疗效劣于阳性对照药的
从一个非劣效试验传递到下一个，从而使假阳性率（ I 最大幅度，即达到试验药批准上市所要求的充分临床
类错误）不断膨胀，经过一系列非劣效试验，最终得到获益时可接受的 M1 最大损失，其损失比例为 r。例如
临床获益不断降低到接近甚至低于安慰剂的试验药选择 M1 的 50% 作为 M2 ，即 r = 0. 5。若 M1 为绝对度
［16 － 18］
非劣效于阳性对照药的结论。量，则 M2 = － rM1 ，若 M1 为相对度量，则 M2 = e
rln（ 1 / M1 ）
。
如图 1 所示，等效试验相当于 2 个方向的非劣效试确定 M2 时的临床判断需考虑实际的疾病发病率或患
［19 － 20］
验的组合，因此等效界值设定条件类同于非劣效病率及其对样本量的影响。当主要终点为不可逆的
界值。由于在优效试验的实际应用中一般不考虑优效结局时，如死亡，或者当阳性对照药与无治疗或安慰
界值或者默认为 Δ = 0 （绝对差异）或 Δ = 1 （相对差剂的应答率存在很大差异时，如疫苗，M2 的确定需要
因此很少考虑恒定假设。事实上，当讨论优效试
异），更加严格
［22 － 23］
；当主要终点不包含不可逆转的结局
验中疗效的统计差异和临床差异的区别时，即需要把时，或者试验药与其他可用的疗法相比具有安全性、
临床差异视为 Δ≠0（绝对差异）或 Δ≠1（相对差异）的耐受性或其他优势时，可适当放宽 M2 。
优效界值（见图 2A，
μT － μC ＞ Δ，图 2B，μT / μC ＞ 1 / Δ），如果在非劣效试验中试验药相对于阳性对照药
［11］
此时优效界值设定条件也类同于非劣效界值。的疗效（结果为高优）的双侧 95% CI （或者单侧
4 检验界值的设定方法 97. 5% CI）下限大于 M2 （若疗效结果为低优，则上限
检验界值设定应基于恒定假设，但在实践中由于小于 M2 ），则认为非劣效试验是成功的。
生物、临床或制造方面的变化导致恒定假设通常很难固定界值法的具体示例见表 1。
证明，阳性对照药疗效估计存在不确定性。因此，在 4. 2 综合法
［14］
设定检验界值时应尽可能考虑排除或降低这种不确综合法合并历史试验（阳性对照药 C h 与安慰剂 P

定性。为了处理这种不确定性，非劣效界值设定经常比较）和当前非劣效试验（试验药 T 与阳性对照药 C n
使用美国 FDA 推荐使用固定界值法（ fixed margin 比较）的数据，利用这 2 种数据来源的变异性（ C h 相对
method）和综合法（ synthesis method）［14］。在个别情况于 P 的疗效估计及其标准误差 SE，T 相对于 C n 的疗
下也可使用点估计法（ pointestimate method）和德尔菲效估计及其 SE），并根据预先确定可损失的 C h 相对于
［10， 21］
12，
法（ Delphic method），但在确证性临床试验中 P 的疗效的比例 r，构建统计量来检验非劣效假设。
一般不推荐使用这 2 种方法。这些方法也适用于等在疗效评价采用绝对度量和相对度量以及疗效结果
效界值和优效界值（绝对差异 Δ≠0 或相对差异 Δ≠1 为高优和低优时，分别对应的原假设和统计量见表 2。
时）的设定。与固定界值法相同的是，综合法也需要选择单项
4. 1 固定界值法［14］历史安慰剂对照试验或该类历史试验的 Meta 分析得
首先通过对使用阳性对照药的历史安慰剂对照出的 C h 相对于 P 的疗效估计及其双侧 95% CI（或者
试验进行分析，估计阳性对照药相对于安慰剂的全部单侧 97. 5% CI），然后推算出 SE；不同的是，综合法不
疗效（ M1 ）。通常选择单项安慰剂试验或该类试验的需要预先设定 M1 和 M2 ，即不需要规定其具体数字，但
Meta 分析得出的阳性对照药疗效（结果为高优）的双是需预先确定 r。在使用综合法时，历史安慰剂对照
侧 95% CI（或者单侧 97. 5% CI）的下限作为 M1 （若疗试验得出的关于阳性对照药疗效的关键性恒定假设
第 35 卷第 19 期 2019 年 10 月（总第 297 期）
表1 采用固定界值法设定非劣效界值的示例
Table 1 The examples of using the fixed margin method to define the non － inferiority margins
高优指标低优指标
历史试验指标事件率差值及 95% CI 事件率比及 95% CI 事件率差值及 95% CI 事件率比及 95% CI
（阳性对照组－安慰剂组）（阳性对照组/ 安慰剂组）（阳性对照组－安慰剂组）（阳性对照组/ 安慰剂组）
Meta 分析结果 3. 75% （ 1. 96% ，
5. 54% ） 2. 77（ 1. 90，
4. 03）－ 3. 75% （－ 5. 54% ，－ 1. 96% ） 0. 36（ 0. 25，
0. 53）
M1 1. 96% 1. 90 － 1. 96% 0. 53
r 0. 5 0. 5 0. 5 0. 5
M2 － 0. 93% 0. 73 0. 93 1. 37
当前非劣效试验指标事件率差值及 95% CI 事件率比及 95% CI 事件率差值及 95% CI 事件率比及 95% CI
（试验组－阳性对照组）（试验组/ 阳性对照组）（试验组－阳性对照组）（试验组/ 阳性对照组）
试验结果 1. 25% （－ 0. 54% ，
3. 04% ） 1. 16（ 0. 98，
1. 38）－ 1. 25% （－ 3. 04% ，
0. 54% ） 0. 86（ 0. 75，
1. 06）
下限－0. 54% ＞ M2 （－ 0. 93% ），下限 0. 98 ＞ M2 （ 0. 73），
非劣效上限 0. 54% ＜ M2 （ 0. 93% ），非上限 1. 06 ＜ M2 （ 1. 37），非劣效
试验结论
非劣效结论成立结论成立劣效结论成立结论成立
表2 采用综合法进行非劣效检验时原假设和统计量
Table 2 The null hypotheses and statistics of non － inferiority tests when using the synthesis method
度量类型
原假设（ H0 ）统计量（拒绝 H0 ）原假设（ H0 ）统计量（拒绝 H0 ）
绝对度量
相对度量
与使用固定界值法时的同样重要。只要恒定假设成法，M1 可能存在于临床医师或患者的头脑、经验和判

立，相对于使用固定界值法，使用综合法可以使研究断中；对于点估计法和固定界值法，M1 来源于历史数
设计更加有效，处理试验药与阳性对照药之间比较的据，这些数据涉及阳性对照药相对于安慰剂的疗效。
SE 的统计效率更高。因此，只有在历史数据缺乏时，才可以考虑使用德尔
［12］
4. 3 点估计法菲法。
固定界值法与点估计法的相同之处是，都需要首 5 检验界值的对称性
先通过历史安慰剂对照试验估计阳性对照药相对于根据等效界值推断出的结论，一般易于理解。如
安慰剂的 M1 ，在确定 M1 之后运用临床判断确定 M2 ，图 3 所示，图 3A 和图 3B 分别代表了在检验界值为绝
根据 M2 对试验药相对于阳性对照药的疗效进行统计对度量和相对度量时各种试验结果情况下的统计结
推断。不同之处是，当历史数据未报告阳性对照药疗论。无论是甲药申办方还是乙药申办方主导等效试
效的 CI 时，可考虑选择疗效的点估计值作为 M1 。验，结果①②③⑧⑨⑩的统计结论均为尚不能确认甲
［10，
21］
4. 4 德尔菲法药和乙药是等效的，结果④⑤⑥⑦均为甲药和乙药是
德尔菲法是要求临床医师或患者考虑愿意牺牲等效的，结论完全一致。
何种程度的阳性对照药的疗效来换取试验药提供的但根据优效和非劣效界值推断出的结论，就会存
潜在好处。临床医师了解现有治疗方案和潜在疾病在逻辑矛盾。如前所述，优效试验一般不设检验界值
的特点，患者可以提供对权衡未来潜在好处的看法，或者默认为 Δ = 0 （绝对差异）或 Δ = 1 （相对差异）。
如改善剂量或降低副作用等。无论是点估计法、固定如图 3 所示，若由甲药申办方主导优效和非劣效试
界值法还是德尔菲法，定义非劣效界值的第 1 步都是验，结果①②③④则为甲药优效于乙药，结果⑤⑥⑦
收集关于阳性对照药疗效的 M1 ，第 2 步都是在确定为甲药非劣效于乙药，结果⑧⑨为尚不能确认甲药非
M1 之后运用临床判断确定 M2 ，第 3 步都是根据 M2 对劣效于乙药，结果⑩为甲药劣效于乙药；反之，若由乙
试验药的疗效进行统计推断。不同的是，对于德尔菲药申办方主导试验，结果①则为乙药劣效于甲药，结
果②③为尚不能确认乙药非劣效于甲药，结果④⑤⑥ P ＜ 0. 05，结果⑤⑥均为 P ＞ 0. 05。对于优效试验，以

为乙药非劣效于甲药，结果⑦⑧⑨⑩为乙药优效于甲 P 值判断，结果①②③④显示甲药在统计学上显著地
药。2 种条件下的结论无法呈现对称性的一致。优于乙药（ P ＜ 0. 05），结果⑦⑧⑨⑩显示乙药在统计
导致在不同方向上解读优效和非劣效试验结论学上显著地优于甲药（ P ＜ 0. 05），而结果⑤⑥显示甲
时出现逻辑矛盾的原因是，在等效和非劣效试验中认药和乙药无显著的统计差异（ P ＞ 0. 05）。但对于等效
为 Δ≠0（绝对差异）或 Δ≠1 （相对差异）是可接受的试验，
以双侧 95% CI 判断，
结果④⑦（ P ＜ 0. 05）和结果
试验药和阳性对照药之间的临床疗效差异，但在优效 ⑤⑥（ P ＞ 0. 05）均显示甲药和乙药在临床上等效；对于
试验中却并非如此，而是选择了 Δ = 0 （绝对差异）或非劣效试验，以单侧 97. 5% CI 判断，结果①②③④⑦
［6，
24］
Δ = 1（相对差异）作为检验界值，即优效试验未能（ P ＜ 0. 05）和结果⑤⑥（ P ＞ 0. 05）均显示甲药在临床上
设定与等效和非劣效试验一样的检验界值。若设立非劣效于乙药，结果④⑦⑧⑨⑩（ P ＜ 0. 05）和结果⑤⑥
与等效和非劣效界值一样的优效界值，则由甲药申办（ P ＞ 0. 05）均显示乙药在临床上非劣效于甲药。
方主导试验时，结果①为甲药优效于乙药，结果②③ 虽然在优效试验中一般使用 P 值描述试验药和
为尚不能确认甲药优效于乙药，结果④⑤⑥⑦为甲药对照药之间的统计差异，但在实践中也会遇到统计差
等效于乙药，结果⑧⑨为尚不能确认甲药非劣效于乙异与临床差异之间的矛盾。以图 3 中结果⑦为例，优
药，结果⑩为甲药劣效于乙药；反之，由乙药申办方主效试验结果显示乙药在统计学上显著地优于甲药
导试验时，结果①为乙药劣效于甲药，结果②③为尚（ P ＜ 0. 05），乙药申办方据此结果进行药品注册申报。
不能确认乙药非劣效于甲药，结果④⑤⑥⑦为乙药等若监管机构认为，该试验虽然具有显著的统计差异，
效于甲药，结果⑧⑨为尚不能确认乙药优效于甲药，但其实际疗效差异尚不能支持乙药在临床上优于甲
结果⑩为乙药优效于甲药。2 种条件下的结论呈现对药的结论，即尚不能达到临床差异。此时，申办方和
称性的一致。因此有必要考虑设立与等效和非劣效监管机构在统计差异（实际疗效差异）与临床差异之
界值一样的优效界值，避免在不同方向上解读统计结间出现矛盾。对于临床差异的判断需要依据合理的
论时出现逻辑矛盾。检验界值（绝对差异 Δ≠0 或相对差异 Δ≠1 时），若
6 检验界值与 P 值未事先预设该界值，而是事后对其讨论设定，则申办
在统计检验中通常使用 P 值描述是否具有显著方和监管机构很难达成一致意见。因为，对于申办方
的统计差异。例如，在优效试验中，当 P ＜ 0. 05 时认来说，事后设定的检验界值哪怕只是略微高于或低于
为具有显著的统计差异。但在等效和非劣效试验中实际疗效差异（统计差异），其所获得的最终结局都是
一般不使用 P 值描述统计差异，而是使用双侧 95% CI 截然不同的。因此，为了避免在优效试验中可能出现
（或者单侧 97. 5% CI）排除检验界值来描述显著的临的统计差异与临床差异之间的矛盾，有必要考虑事先
［8，
25 － 26］
床差异，原因为仅使用 P 值描述统计差异会错设定临床上认可的检验界值。
［19］
误地解释试验结果。因此须将检验界值与 P 值分 7 检验界值与样本量
别对应的临床差异和统计差异的概念区分开来。检验界值与样本量密切相关。虽然一般情况下
优效试验选择 Δ = 0 （绝对差异）或 Δ = 1 （相对差异）
作为检验界值，但在计算样本量时却考虑了作为差异
性检验的假设，即假设试验药和对照药之间存在某种
程度的疗效差异。与此相反，等效和非劣效检验是证
明试验药和阳性对照药之间的疗效是“相等的 ”或试
验药的疗效“不差于 ”阳性对照药。完全“相等 ”或
“不差”则意味着疗效差异无限小，从而也意味着需要
无限的样本量，这是不切实际的。因此，作为折中方
图3 检验界值的对称性案，需要定义合理的检验界值（绝对差异 Δ≠0 或相对
［10，
28］
Figure 3 The symmetries of margins 差异 Δ≠1 时），以利于计算出可接受的样本量。
在包括检验界值在内的各方面条件相当时，由于
具有统计差异不等于具有临床差异，反之亦检验效能不同，与阳性对照药比较的优效试验的样本
［27］［29］
然。以图 3 为例，结果 ① ② ③ ④ ⑦ ⑧ ⑨ ⑩ 均为量一般大于等效和非劣效试验；但由于检验界值
第 35 卷第 19 期 2019 年 10 月（总第 297 期）
不同，即试验药与安慰剂的疗效差异大于与阳性对照得到非劣效结论，则对非劣效的判断会更有
［34］
药的差异，在其他各方面条件相当时，与安慰剂比较说服力。
的优效试验的样本量一般小于与阳性对照药比较的对非劣效界值的设定主要基于对历史数据的
［22，
30 － 31］
等效和非劣效试验。因此，在实践中，与阳性 Meta分析。申办方在检索历史文献时需要考虑文献
对照药比较时多选择等效或非劣效试验，而优效试验的选择偏倚、发表偏倚等以及既往试验的设计、临床
［35］
多选择安慰剂作为对照。由于等效试验是双侧检验实践、试验结果等的恒定性。当缺乏历史数据而
而非劣效试验是单侧检验，在包括检验界值在内的各采用德尔菲法时，应该严格按照该方法的要求收集信
［36］
方面条件相当时，等效试验所需的样本量大于非劣效息并进行科学分析，以避免检验界值设定的主观
［8 － 9］
试验。性和随意性。
以非劣效试验为例，检验界值的较小变化可能导在阐述检验界值的对称性以及检验界值与 P 值
致样本量的较大变化。保守的非劣效界值需要更多的关系时，讨论了在优效试验中事先设定临床上认可
的样本量来检测差异，但随着非劣效界值的增加，所的检验界值（优效界值）的必要性。这也符合国际人
需样本量减少，获得非劣效结论的可能性变大，这对用药品注册技术协调会（ ICH） E10 中阐述的“统计推
［8 － 9， 32］［37］
于药品临床试验的申办方极具诱惑力
15，
。但是断和临床判断 ”相结合的理念。当把优效试验视
过大的非劣效界值会超出可接受的试验药和阳性对为差异性检验时，属于“统计推断 ”；当为了避免医师
［30］
照药之间的临床疗效差异的限度。当通过检验界在临床实践中对试验结果的解读产生困惑或者避免
值设定方法推导出较小的非劣效界值从而产生较大申办方和监管机构事后讨论无法达成一致意见而考
样本量时，申办方不应该为了降低样本量而人为扩大虑事先设定优效界值时，属于“临床判断”。
非劣效界值，而是应该仔细研究所收集到的历史数据本文主要基于疗效终点介绍了对药物临床试验
是否满足恒定假设，是否存在“生物爬行现象 ”，以及中预设检验界值的考虑。对于基于安全终点的试验，
是否适用于当前试验等，从中筛选出可靠的历史数本文对检验界值的考虑也可供其参考。
［10］
据，重新推导出合理的非劣效界值和样本量。这
参考文献：
些考虑也适用于等效和优效试验的检验界值与样本
［1 ］ ALTHUNIAN T A，DE BOEＲ A，KLUNGEL O H，et al． Methods
量之间的关联。
of defining the non － inferiority margin in randomized，double －
8 讨论
blind controlled trials： A systematic review ［J］． Trials，2017，18
设定检验界值的目的是确保在试验药至少优于（ 1）： 107．
安慰剂的基础上对试验药和阳性对照药的疗效进行［2 ］ LE HENANFF A，GIＲAUDEAU B，BAＲON G，et al． Quality of
比较，即确保试验具有足够的检定灵敏度（ assay sensi- reporting of noninferiority and equivalence randomized trials ［J］．
tivity）［14］
。合理的检验界值取决于适当的设定条件 295（ 10）： 1147 － 1151．
JAMA，2006，
［3 ］ SAAD E D，BUYSE M. Non － inferiority trials in breast and non －
和方法，而检验界值的合理与否又影响到样本量估算
small cell lung cancer： Choice of non － inferiority margins and other
和试验结论的正确与否。因此，在药物临床试验设计 statistical aspects ［J］． Acta Oncol，2012，
51（ 7）： 890 － 896．
阶段需要对检验界值的设定进行充分考虑。［4 ］ PAＲIENTI J J，VEＲDON Ｒ，MASSAＲI V. Methodological standards
虽然在阐述恒定假设的概念时也是以统计评价 in non － inferiority AIDS trials： Moving from adherence to compliance
和检验界值的绝对度量为例，但实际上绝对度量并不［J / OL］． BMC Med Ｒes Methodol，2006，6： 46. 2006 － 09 － 20

［2019 － 08 － 22］． https： / / bmcmedresmethodol. biomedcentral. com / ar-
总是适合用于评估恒定假设，因此需要判断何种类型
［13］ ticles /10. 1186 /1471 － 2288 － 6 － 46．
的度量可能更适合评估恒定假设；从相对度量的
［5 ］ＲIECHELMANN Ｒ P，ALEX A，CＲUZ L，et al． Non － inferiority
角度看，预期的低事件率可能导致检验界值的绝对度 cancer clinical trials： scope and purposes underlying their design
量在临床上不合适，例如，如果对照组的观察事件率［J］． Ann Oncol，2013，
24（ 7）： 1942 － 1947．
仅为 1% ，即使非劣效界值设为事件率绝对差 0. 5% ，［6 ］ GANJU J，ＲOM D. Non － inferiority versus superiority drug claims：
这也可能意味着试验组相对于对照组有 50% 的事件 The （ not so） subtle distinction ［J］． Trials，2017，
18（ 1）： 278．
［13，
30］［7 ］ INTEＲNATIONAL CONFEＲENCE ON HAＲMONISATION OF TECH-
率的增加或减少。有研究显示，在不同的非劣效
NICAL ＲEQUIＲEMENTS FOＲＲEGISTＲATION OF PHAＲMACEUTI-
界值的绝对度量水平上，非劣效界值的相对度量水平 CALS FOＲ HUMAN USE（ ICH） . ICH harmonised tripartite guideline：
［33］
与对照组的观察事件率呈现不同的对应关系。如 Statistical principles for clinical trials （ E9）［EB / OL］． Geneva，Swit-
果在非劣效界值的绝对度量和相对度量水平上均能 1998 － 02 － 05 ［2019 － 08 － 22］． http： / / www. ich. org /
zerland： ICH，
fileadmin / Public _ Web _ Site / ICH _ Products / Guidelines / Efficacy / E9 / 17（ 1）： 61 － 73．
Step4 / E9_Guideline. pdf．［24］ DINUBILE M J. Bias and asymmetry in sequential noninferiority －
［8 ］ KEＲAI S. Equivalence and non － inferiority trials in asnapshot superiority trial designs ［J］． Clin Infect Dis，2013，56 （ 12 ）：
［J］． J Ayub Med Coll Abbottabad，2017，
29（ 3）： 371 － 372． 1841 － 1842．
［9 ］ ZHONG J，WEN M J，KWONG K S，et al． Testing of non － infe- ［25］ TUＲNEＲ J Ｒ，DUＲHAM T A. Must new drugs be superior to those
riority and superiority for three － arm clinical studies with multiple already available？ The role of noninferiority clinical trials ［J］． J
experimental treatments ［J］． Stat Methods Med Ｒes，2018，
27（ 6）： Clin Hypertens （ Greenwich），2015，
17（ 4）： 319 － 321．
1751 － 1765．［26］ HUSON L. Statistical assessment of superiority，equivalence and
［10］ SCHUMI J，WITTES J T. Through the looking glass： understanding non － inferiority in clinical trials ［J］． Clin Ｒes Focus，2001，12
non － inferiority ［J / OL］． Trials，2011，12： 106. 2011 － 05 － 03 （ 5）： 31 － 34．
［2019 － 08 － 22］． https： / / trialsjournal. biomedcentral. com / arti- ［27］ KＲAEMEＲ H C. Another point of view： Superiority，noninferiority，
cles /10. 1186 /1745 － 6215 － 12 － 106． and the role of active comparators ［J］． J Clin Psychiatry，2011，
72
［11］ CCTS 工作小组，夏结来 . 非劣效临床试验的统计学考虑［J］．（ 10）： 1350 － 1352．
29（ 2）： 270 － 274．
中国卫生统计，2012，［28］ CHＲISTENSEN E. Methodology of superiority vs. equivalence trials
［12］ ALTHUNIAN T A，DE BOEＲ A，GＲOENWOLD Ｒ H H，et al． and non － inferiority trials ［J］． J Hepatol， 2007，46 （ 5 ）：
Defining the noninferiority margin and analysing noninferiority： An 947 － 954．
overview ［J］． Br J Clin Pharmacol，2017，
83（ 8）： 1636 － 1642．［29］ MYLES P S. What’s new in trial design： Propensity scores，equiva-
［13］ MAUＲI L，D＇AGOSTINO Ｒ B S Ｒ. Challenges in the design and lence，and non － inferiority ［J］． J Extra Corpor Technol，2009，
41
interpretation of noninferiority trials ［J］． N Engl J Med，2017，
377 （ 4）： P6 － 10．
（ 14）： 1357 － 1367．［30］ MUＲTHY V L，DESAI N Ｒ，VOＲA A，et al． Increasing proportion
［14］ U. S. FOOD AND DＲUG ADMINISTＲATION. Non － inferiority of clinical trials using noninferiority end points ［J］． Clin Cardiol，
clinical trials to establish effectiveness： Guidance for industry 35（ 9）： 522 － 523．
2012，
［EB / OL］． Silver Spring，MD，USA： U. S. Food and Drug Admi- ［31］ EＲNST E. Equivalence and non － inferiority trials of CAM ［J］．
ni-stration，2016 － 11 － 30 ［2019 － 08 － 22］． https： / / 1（ 1）： 9 － 10．
Evid Based Complement Alternat Med，2004，
www. fda. gov / downloads / Drugs / Guidances / UCM202140. pdf．［32］ GLL ，TEKINDAL M A. Sample size for non － inferiority tests
［15］ FLEMING T Ｒ. Current issues in non － inferiority trials ［J］． Stat for one proportion： A simulation study ［J］． J Mod Appl Stat
27（ 3）： 317 － 332．
Med，2008， 17（ 1）： eP2475．
Methods，2018，
［16］ EVEＲSON － STEWAＲT S，EMEＲSON S S. Bio － creep in non －［33］ TUNES DA SILVA G，LOGAN B Ｒ，KLEIN J P. Methods for e-
inferiority clinical trials ［J］． Stat Med， 2010，29 （ 27 ）： quivalence and noninferiority testing ［J］． Biol Blood Marrow
2769 － 2780． 15（ 1 Suppl）： 120 － 127．
Transplant，2009，
［17］ ODEM － DAVIS K，FLEMING T Ｒ. A simulation study evaluating ［34］ HEAD S J，KAUL S，BOGEＲS A J，et al． Non － inferiority study
bio － creep risk in serial non － inferiority clinical trials for preserva- design： Lessons to be learned from cardiovascular trials ［J］． Eur
tion of effect ［J］． Stat Biopharm Ｒes，2015，
7（ 1）： 12 － 24． 33（ 11）： 1318 － 1324．
Heart J，2012，
［18］ VAVKEN P. Ｒationale for and methods of superiority，noninferiori- ［35］ COMMITTEE FOＲ MEDICAL PＲODUCTS FOＲ HUMAN USE
ty，or equivalence designs in orthopaedic，controlled trials ［J］．（ CHMP） . Guideline on the choice of the non － inferiority margin
469（ 9）： 2645 － 2653．
Clin Orthop Ｒelat Ｒes，2011，［EB / OL］． London，
UK： European Medicines Agency，2005 － 07 － 27
［19］ HILLS Ｒ K. Non － inferiority trials： No better？ No worse？ No ［2019 － 08 － 22］． http： / / www. ema. europa. eu / docs / en_GB / docu-
change？ No pain？［J］． Br J Haematol，2017，
176（ 6）： 883 － 887． ment_library / Scientific_guideline /2009 /09 / WC500003636. pdf．
［20］ WALKEＲ E，NOWACKI A S. Understanding equivalence and non- ［36］ POWELL C. The Delphi technique： myths and realities ［J］． J Adv
inferiority testing ［J］． J Gen Intern Med，2011，
26（ 2）： 192 － 196． 41（ 4）： 376 － 382．
Nurs，2003，
［21］ AL DEEB M，AZAD A，BAＲBIC D. Critically appraising noninfe- ［37］ INTEＲNATIONAL CONFEＲENCE ON HAＲMONISATION OF TECH-
riority randomized controlled trials： A primer for emergency physi- NICAL ＲEQUIＲEMENTS FOＲＲEGISTＲATION OF PHAＲMACEUTI-
cians ［J］． CJEM，2015，
17（ 3）： 231 － 236． CALS FOＲ HUMAN USE （ ICH） . ICH harmonised tripartite guideline：
［22］ SCOTT I A. Non － inferiority trials： Determining whether alternative choice of control group and related issues in clinical trials （ E10 ）
treatments are good enough ［J］． Med J Aust，2009，190 （ 6 ）：［EB / OL］． Geneva，Switzerland： ICH，
2000 －07 － 20 ［2019 － 08 － 22］．
326 － 330． http： / / www. ich. org / fileadmin / Public_Web_Site / ICH_Products / Guide-
［23］ LIU G F. A dynamic power prior for borrowing historical data in lines / Efficacy / E10/ Step4/ E10_Guideline. pdf．
noninferiority trials with binary endpoint ［J］． Pharm Stat，2018，（本文编辑戴荣源）

对药物临床试验中置信区间法预设检验界值的考虑

Uploaded by

Copyright:

Available Formats

You might also like

对药物临床试验中置信区间法预设检验界值的考虑

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

对药物临床试验中置信区间法预设检验界值的考虑

Uploaded by

Copyright:

Available Formats

Chin J Clin Pharmacol 2487

Vol. 35 No. 19 October 2019（ Serial No. 297）

李新旭，唐智敏，辛晓娜，摘要：优效、等效和非劣效试验是药物临床试验中广泛应用的试验方法。其置信

LI Xin － xu，TANG Zhi － min，文章编号： 1001 － 6821（ 2019） 19 － 2487 － 04

XIN Xiao － na，WANG Jun

上并无重要意义的试验，非劣效试验是指验证试验药及 95% CI 为 1. 44 （ 0. 90，2. 36），非劣效界值为 0. 80

试验中阳性对照药相对于安慰剂的临床获益为 30% ，效结果为低优，则选择上限作为 M1 ）。在选择 M1 时

设定检验界值时应尽可能考虑排除或降低这种不确综合法合并历史试验（阳性对照药 C h 与安慰剂 P

与使用固定界值法时的同样重要。只要恒定假设成法，M1 可能存在于临床医师或患者的头脑、经验和判

果②③为尚不能确认乙药非劣效于甲药，结果④⑤⑥ P ＜ 0. 05，结果⑤⑥均为 P ＞ 0. 05。对于优效试验，以

和检验界值的绝对度量为例，但实际上绝对度量并不［J / OL］． BMC Med Ｒes Methodol，2006，6： 46. 2006 － 09 － 20

You might also like

对药物临床试验中置信区间法预设检验界值的考虑

Uploaded by

Copyright:

Available Formats

You might also like

对药物临床试验中置信区间法预设检验界值的考虑

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

对药物临床试验中置信区间法预设检验界值的考虑

Uploaded by

Copyright:

Available Formats

Chin J Clin Pharmacol 2487

Vol. 35 No. 19 October 2019（ Serial No. 297）

李新旭，唐智敏，辛晓娜， 摘要： 优效、等效和非劣效试验是药物临床试验中广泛应用的试验方法。其置信

LI Xin － xu，TANG Zhi － min， 文章编号： 1001 － 6821（ 2019） 19 － 2487 － 04

XIN Xiao － na，WANG Jun

上并无重要意义的试验，非劣效试验是指验证试验药 及 95% CI 为 1. 44 （ 0. 90，2. 36） ，非劣效界值为 0. 80

试验中阳性对照药相对于安慰剂的临床获益为 30% ， 效结果为低优，则选择上限作为 M1 ） 。 在选择 M1 时

设定检验界值时应尽可能考虑排除或降低这种不确 综合法合并历史试验（ 阳性对照药 C h 与安慰剂 P

与使用固定界值法时的同样重要。 只要恒定假设成 法，M1 可能存在于临床医师或患者的头脑、经验和判

果②③为尚不能确认乙药非劣效于甲药，结果④⑤⑥ P ＜ 0. 05，结果⑤⑥均为 P ＞ 0. 05。 对于优效试验，以

和检验界值的绝对度量为例，但实际上绝对度量并不 ［J / OL］． BMC Med Ｒes Methodol，2006，6： 46. 2006 － 09 － 20

You might also like

李新旭，唐智敏，辛晓娜，摘要：优效、等效和非劣效试验是药物临床试验中广泛应用的试验方法。其置信

LI Xin － xu，TANG Zhi － min，文章编号： 1001 － 6821（ 2019） 19 － 2487 － 04

上并无重要意义的试验，非劣效试验是指验证试验药及 95% CI 为 1. 44 （ 0. 90，2. 36），非劣效界值为 0. 80

试验中阳性对照药相对于安慰剂的临床获益为 30% ，效结果为低优，则选择上限作为 M1 ）。在选择 M1 时

设定检验界值时应尽可能考虑排除或降低这种不确综合法合并历史试验（阳性对照药 C h 与安慰剂 P

与使用固定界值法时的同样重要。只要恒定假设成法，M1 可能存在于临床医师或患者的头脑、经验和判

果②③为尚不能确认乙药非劣效于甲药，结果④⑤⑥ P ＜ 0. 05，结果⑤⑥均为 P ＞ 0. 05。对于优效试验，以

和检验界值的绝对度量为例，但实际上绝对度量并不［J / OL］． BMC Med Ｒes Methodol，2006，6： 46. 2006 － 09 － 20