对药物临床试验中置信区间法预设检验界值的考虑

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

Chin J Clin Pharmacol 2487

Vol. 35 No. 19 October 2019( Serial No. 297)

对药物临床试验中置信区间法预设检验界值的考虑
Consideration for the pre - specified margin of the confidence interval approach in
drug clinical trials

李新旭,唐智敏,辛晓娜, 摘要: 优效、等效和非劣效试验是药物临床试验中广泛应用的试验方法。其置信


王 骏 区间法的预设检验界值是事关这些试验成功与否的关键因素之一。检验界值设
定不当将会推断出错误的试验结论。为了促使药品临床试验的检验界值设定更
加科学合理,本文阐述了对 3 种试验方法的检验界值概念、度量类型、设定条件、
设定方法、对称性问题以及检验界值分别与 P 值和样本量之间关系的考虑。
( 国家 药 品 监 督 管 理 局 药 品 审 评 中 心,北 京
关键词: 药物临床试验; 置信区间法; 预设检验界值; 考虑
100022)
DOI: 10. 13699 / j. cnki. 1001 - 6821. 2019. 19. 077
中图分类号: R972. 6 文献标志码: C

LI Xin - xu,TANG Zhi - min, 文章编号: 1001 - 6821( 2019) 19 - 2487 - 04

XIN Xiao - na,WANG Jun


Abstract: Superiority,equivalence and non - inferiority trials are widely
used in drug clinical trials. Specifying margin of the confidence interval
approach in advance is one of the key factors that affect the success of
( Center for Drug Evaluation,National
these trials. The inappropriate margin will lead to the incorrect trial con-
Medical Products Administration,Beijing
clusions. In order to promote the more scientific and rational margin in
100022,China)
clinical drug trials,this paper elaborates the consideration for the con-
cept,measurement type,specified condition,specified method,symmetry
issue of the margin,as well as the relationship between the margin and P
value and the relationship between the margin and sample size in all three
types of trials.
Key words: drug clinical trial; confidence interval approach; pre -
specified margin; consideration

优效、等效和非劣效试验是药物临床试验中广泛应用的试验方
法。其置信区间( confidence interval,CI) 方法的预设检验界值是事关
这些试验成功与否的关键因素之一。 研究显示,很多试验的非劣效
[1 - 2]
界值设定 方 法 不 合 理 ,或 未 能 提 供 确 定 非 劣 效 界 值 的 合 理 理
[3 - 4]
由 ,在一些 抗 肿 瘤 药 物 临 床 试 验 中 倾 向 使 用 较 大 的 非 劣 效 界
[5]
值 。检验界值设定不当将会推断出错误的试验结论 ,并导致医师
[6]
在临床实践中对试验结果的解读产生困惑 ,需要引起申办方和监
收稿日期: 2019 - 08 - 26 管机构的关注。为了促使药品临床试验的检验界值设定更加科学合
定稿日期: 2019 - 09 - 16
理,本文阐述了对 3 种试验方法的检验界值概念、度量类型、设定条
基金项目: 国家“重大新药创制”科技重大专项
资助项目( 2017ZX09101001) 件、设定方法、对称性问题以及检验界值与 P 值和样本量之间关系的
作者简介: 李新旭( 1978 - ) ,男,副研究员,主 考虑。
要从事药品的技术审评工作
1 检验界值的概念
通信作者: 王骏,研究员
MP: ( 010) 85243094 优效试验是指验证试验药的疗效优于对照 ( 阳性对照药或安慰
E - mail: wangj@ cde. org. cn 剂) 的试验,等效试验是指验证 2 种或多种治疗的差别大小在临床
2488 中国临床药理学杂志
第 35 卷 第 19 期 2019 年 10 月( 总第 297 期)

上并无重要意义的试验,非劣效试验是指验证试验药 及 95% CI 为 1. 44 ( 0. 90,2. 36) ,非劣效界值为 0. 80


的疗效在临床上不劣于对照( 阳性对照药或安慰剂) 的 ( 相对度量) , 95% CI 的下限大于非劣效界值,可认为
[7]
试验 。检验界值是指在药品临床试验中所能接受的 试验药非劣效于阳性对照药。
[8]
试验药相对于对照药的最小或最大临床疗效差异 。 选择不同度量类型的统计评价及其对应的检验
优效、等效与非劣效试验之间的关系与检验界值 界值,会对试验的把握度和检验效能产生影响,因此
[13]
密切相关。我们首先假设优效、等效与非劣效界值是 在试验设计阶段必须仔细考虑这种选择 。 例如,
相同的,用 Δ 表示检验界值,μ T 表示试验药的平均疗 试验组和对照组中不良结局比例在研究 1 中分别为
效,μ C 表示对照( 阳性对照药或安慰剂 ) 的平均疗效, 0. 2 和 0. 4,在研究 2 中分别为 0. 1 和 0. 2,如果选择
假设在 μ C 右侧为疗效逐渐变优,在左侧为疗效逐渐 的统计评价和检验界值为相对度量,则 2 个研究可能
[9]
变劣,如图 1A 所示 。如果 μ T 落在( μ C - Δ,μ C + Δ) 得到相同的研究结论 ( 2 个 研 究 中 2 组 风 险 比 均 为
的等效限内,则试验药的疗效与对照等效; 如果 μ T < 0. 5) ,如果选择绝对度量,可能得到不同的结论 ( 研究
μ C - Δ,则试验药的疗效劣于对照; 如果 μ T > μ C + Δ, 1 中 2 组风险差值绝对值为 0. 2,研究 2 中为 0. 1 ) 。
则试验药的疗效优于对照; 如果 μ T ≥μ C - Δ,则试验 与此相反,假设试验组和对照组中不良结局比例在研
药的疗效非劣于对照。 究 1 中分别为 0. 2 和 0. 4,在研究 2 中分别为 0. 5 和
在实际应用中,优效试验是通过差异性检验进行 0. 7,如果选择的统计评价和检验界值为绝对度量,则
统计推断的,在试验设计时一般不考虑优效界值或者 2 个研究可能得到相同的研究结论 ( 2 个研究中 2 组
默认为 0,即 Δ = 0,这是不同于等效和非劣效界值之 风险差值绝对值均为 0. 2) ,如果选择相对度量,可能
[10 - 11]
处 。如图 1B 所示,如果 μ T > μ C ,则试验药的疗 得到不同的结论( 研究 1 中 2 组风险比为 0. 5,研究 2
效优于对照。 中为 0. 7) 。
2 检验界值的度量类型 3 检验界值的设定条件
非劣效试验的统计评价度量分为绝对差异 ( 如均 美国食品药品监督管理局 ( FDA) 指出,在非劣效
值差、率差、风险差等 ) 和相对差异 ( 如率比、风险比、 试验中 设 定 检 验 界 值 应 基 于“恒 定 假 设 ( constancy
[14]
优势比等) ,因此非劣效界值也相应分为绝对度量和 assumption) ” 。对阳性对照药相对于安慰剂的疗效
[12]
相对度量 。优效界值和等效界值的度量类型与非 差异估计的证据多源于既往临床试验,应尽可能确保
劣效界值相同。 对于统计评价度量为相对差异的优 本次非劣效试验中阳性对照药的疗效与既往临床试
效试验中,在实际应用中往往不考虑优效界值或者默 验保持一致,即满足恒定假设。 患者特征、医疗技术
[6]
认为 1,即 Δ = 1 。图 1 以绝对度量为例阐述了检验 或标准、剂量或治疗方案、入选标准、依从程度、研究
界值的概念,图 2 举例说明了检验界值的绝对度量和 终点、分析方法等所有重要研究设计和实施方面的因
相对度量。 素均可影响恒定假设。 只有当前非劣效试验与其阳
如图 2A 所示,假设某试验药与阳性对照药的治 性对照药的历史试验在所有重要研究设计和实施方
愈率差值及 95% CI 为 3. 6% ( - 1. 6% ,9. 1% ) ,非劣 面均保持一致时,历史试验才可用于估计当前非劣效
[14 - 15]
效界值为 - 2. 0% ( 绝对度量 ) ,95% CI 的下限大于非 试验的阳性对照药疗效和非劣效界值 。
劣效界值,可认为试验药非劣效于阳性对照药。 如图 违反恒定假设可能导致非劣效界值过大或过小,
[12]
2B 所示,假设某试验药与阳性对照药的治愈率比值 从而 得 到 错 误 的 非 劣 效 结 论 。 例 如,在 某 历 史

图1 优效、等效及非劣效试验与检验界值
Figure 1 Superiority,equivalence and non - inferiority trials 图2 检验界值的绝对度量和相对度量
and their margins Figure 2 The absolute and relative measures of margins
Chin J Clin Pharmacol 2489
Vol. 35 No. 19 October 2019( Serial No. 297)

试验中阳性对照药相对于安慰剂的临床获益为 30% , 效结果为低优,则选择上限作为 M1 ) 。 在选择 M1 时


假设这种临床获益随着时间推移而减少 ( 违反恒定假 应考虑历史试验中的恒定假设以及观察到的疗效变
设) ,即在当前非劣效试验中该阳性对照药相对于安 异性。与阳性对照药有关的所有历史试验以及这些
慰剂的临床获益可能仅为 10% ,这意味着当前非劣效 试验中所有随机患者通常都应该被用于确定 M1 ,以
界值即使保留 50% 的阳性对照药相对于安慰剂的历 确保对阳性对照药疗效做出更可靠的估计,并避免在
史临床获益,也超出了该阳性对照药相对于安慰剂的 选择部分历史试验时存在偏倚。 为了降低恒定假设
全部当前临床获益,可能得到实际上劣效于安慰剂的 的不确定性,也可采用“折扣”策略( 如减半) 确定 M1 ,
试验药却非劣效于阳性对照药的结论 。 即将历史试验的估计疗效通过一定幅度的“折扣 ”转
由此可见,违反恒定假设也是导致“生物爬行现 换为当前非劣效试验的 M1 。 这应该区别于确定非劣
[16]
象( bio - creep) ”的 关 键 因 素 。 生 物 爬 行 现 象 是 效界值( M2 ) 时的损失比例( r) 。
指,由于违反恒定假设,可能导致对阳性对照药相对 在确定 M1 之后应当运用临床判断确定 M2 。M2
于安慰剂的临床获益的历史估计产生偏倚,这种偏倚 为在临床上可接受的试验药疗效劣于阳性对照药的
从一个非劣效试验传递到下一个,从而使假阳性率 ( I 最大幅度,即达到试验药批准上市所要求的充分临床
类错误) 不断膨胀,经过一系列非劣效试验,最终得到 获益时可接受的 M1 最大损失,其损失比例为 r。 例如
临床获益不断降低到接近甚至低于安慰剂的试验药 选择 M1 的 50% 作为 M2 ,即 r = 0. 5。 若 M1 为绝对度
[16 - 18]
非劣效于阳性对照药的结论 。 量,则 M2 = - rM1 ,若 M1 为相对度量,则 M2 = e
rln( 1 / M1 )

如图 1 所示, 等效试验相当于 2 个方向的非劣效试 确定 M2 时的临床判断需考虑实际的疾病发病率或患
[19 - 20]
验的组合 ,因此等效界值设定条件类同于非劣效 病率及其对样本量的影响。 当主要终点为不可逆的
界值。由于在优效试验的实际应用中一般不考虑优效 结局时,如死亡,或者当阳性对照药与无治疗或安慰
界值或者默认为 Δ = 0 ( 绝对差异 ) 或 Δ = 1 ( 相对差 剂的应答率存在很大差异时,如疫苗,M2 的确定需要
因此很少考虑恒定假设。事实上,当讨论优效试
异) , 更加严格
[22 - 23]
; 当主要终点不包含不可逆转的结局
验中疗效的统计差异和临床差异的区别时,即需要把 时,或者试验药与其他可用的疗法相比具有安全性、
临床差异视为 Δ≠0( 绝对差异) 或 Δ≠1( 相对差异) 的 耐受性或其他优势时,可适当放宽 M2 。
优效界值( 见图 2A,
μT - μC > Δ,图 2B,μT / μC > 1 / Δ) , 如果在非劣效试验中试验药相对于阳性对照药
[11]
此时优效界值设定条件也类同于非劣效界值 。 的 疗 效 ( 结 果 为 高 优 ) 的 双 侧 95% CI ( 或 者 单 侧
4 检验界值的设定方法 97. 5% CI) 下限大于 M2 ( 若疗效结果为低优,则上限
检验界值设定应基于恒定假设,但在实践中由于 小于 M2 ) ,则认为非劣效试验是成功的。
生物、临床或制造方面的变化导致恒定假设通常很难 固定界值法的具体示例见表 1。
证明,阳性对照药疗效估计存在不确定性。 因此,在 4. 2 综合法
[14]

设定检验界值时应尽可能考虑排除或降低这种不确 综合法合并历史试验( 阳性对照药 C h 与安慰剂 P


定性。为了处理这种不确定性,非劣效界值设定经常 比较) 和当前非劣效试验 ( 试验药 T 与阳性对照药 C n
使用美 国 FDA 推 荐 使 用 固 定 界 值 法 ( fixed margin 比较) 的数据,利用这 2 种数据来源的变异性 ( C h 相对
method) 和综合法( synthesis method) [14]。 在个别情况 于 P 的疗效估计及其标准误差 SE,T 相对于 C n 的疗
下也可使用点估计法 ( pointestimate method) 和德尔菲 效估计及其 SE) ,并根据预先确定可损失的 C h 相对于
[10, 21]
12,
法( Delphic method) ,但在确证性临床试验中 P 的疗效的比例 r,构建统计量来检验非劣效假设。
一般不推荐使用这 2 种方法。 这些方法也适用于等 在疗效评价采用绝对度量和相对度量以及疗效结果
效界值和优效界值( 绝对差异 Δ≠0 或相对差异 Δ≠1 为高优和低优时,分别对应的原假设和统计量见表 2。
时) 的设定。 与固定界值法相同的是,综合法也需要选择单项
4. 1 固定界值法[14] 历史安慰剂对照试验或该类历史试验的 Meta 分析得
首先通过对使用阳性对照药的历史安慰剂对照 出的 C h 相对于 P 的疗效估计及其双侧 95% CI( 或者
试验进行分析,估计阳性对照药相对于安慰剂的全部 单侧 97. 5% CI) ,然后推算出 SE; 不同的是,综合法不
疗效( M1 ) 。通常选择单项安慰剂试验或该类试验的 需要预先设定 M1 和 M2 ,即不需要规定其具体数字,但
Meta 分析得出的阳性对照药疗效 ( 结果为高优 ) 的双 是需预先确定 r。 在使用综合法时,历史安慰剂对照
侧 95% CI( 或者单侧 97. 5% CI) 的下限作为 M1 ( 若疗 试验得出的关于阳性对照药疗效的关键性恒定假设
2490 中国临床药理学杂志
第 35 卷 第 19 期 2019 年 10 月( 总第 297 期)

表1 采用固定界值法设定非劣效界值的示例
Table 1 The examples of using the fixed margin method to define the non - inferiority margins

高优指标 低优指标
历史试验指标 事件率差值及 95% CI 事件率比及 95% CI 事件率差值及 95% CI 事件率比及 95% CI
( 阳性对照组 - 安慰剂组) ( 阳性对照组/ 安慰剂组) ( 阳性对照组 - 安慰剂组) ( 阳性对照组/ 安慰剂组)
Meta 分析结果 3. 75% ( 1. 96% ,
5. 54% ) 2. 77( 1. 90,
4. 03) - 3. 75% ( - 5. 54% ,- 1. 96% ) 0. 36( 0. 25,
0. 53)
M1 1. 96% 1. 90 - 1. 96% 0. 53
r 0. 5 0. 5 0. 5 0. 5
M2 - 0. 93% 0. 73 0. 93 1. 37
高优指标 低优指标
当前非劣效试验指标 事件率差值及 95% CI 事件率比及 95% CI 事件率差值及 95% CI 事件率比及 95% CI
( 试验组 - 阳性对照组) ( 试验组/ 阳性对照组) ( 试验组 - 阳性对照组) ( 试验组/ 阳性对照组)
试验结果 1. 25% ( - 0. 54% ,
3. 04% ) 1. 16( 0. 98,
1. 38) - 1. 25% ( - 3. 04% ,
0. 54% ) 0. 86( 0. 75,
1. 06)
下限 -0. 54% > M2 ( - 0. 93% ) , 下限 0. 98 > M2 ( 0. 73) ,
非劣效 上限 0. 54% < M2 ( 0. 93% ) ,非 上限 1. 06 < M2 ( 1. 37) ,非劣效
试验结论
非劣效结论成立 结论成立 劣效结论成立 结论成立

表2 采用综合法进行非劣效检验时原假设和统计量
Table 2 The null hypotheses and statistics of non - inferiority tests when using the synthesis method

高优指标 低优指标
度量类型
原假设( H0 ) 统计量( 拒绝 H0 ) 原假设( H0 ) 统计量( 拒绝 H0 )

绝对度量

相对度量

与使用固定界值法时的同样重要。 只要恒定假设成 法,M1 可能存在于临床医师或患者的头脑、经验和判


立,相对于使用固定界值法,使用综合法可以使研究 断中; 对于点估计法和固定界值法,M1 来源于历史数
设计更加有效,处理试验药与阳性对照药之间比较的 据,这些数据涉及阳性对照药相对于安慰剂的疗效。
SE 的统计效率更高。 因此,只有在历史数据缺乏时,才可以考虑使用德尔
[12]
4. 3 点估计法 菲法。
固定界值法与点估计法的相同之处是,都需要首 5 检验界值的对称性
先通过历史安慰剂对照试验估计阳性对照药相对于 根据等效界值推断出的结论,一般易于理解。 如
安慰剂的 M1 ,在确定 M1 之后运用临床判断确定 M2 , 图 3 所示,图 3A 和图 3B 分别代表了在检验界值为绝
根据 M2 对试验药相对于阳性对照药的疗效进行统计 对度量和相对度量时各种试验结果情况下的统计结
推断。不同之处是,当历史数据未报告阳性对照药疗 论。无论是甲药申办方还是乙药申办方主导等效试
效的 CI 时,可考虑选择疗效的点估计值作为 M1 。 验,结果①②③⑧⑨⑩的统计结论均为尚不能确认甲
[10,
21]
4. 4 德尔菲法 药和乙药是等效的,结果④⑤⑥⑦均为甲药和乙药是
德尔菲法是要求临床医师或患者考虑愿意牺牲 等效的,结论完全一致。
何种程度的阳性对照药的疗效来换取试验药提供的 但根据优效和非劣效界值推断出的结论,就会存
潜在好处。临床医师了解现有治疗方案和潜在疾病 在逻辑矛盾。如前所述,优效试验一般不设检验界值
的特点,患者可以提供对权衡未来潜在好处的看法, 或者默认为 Δ = 0 ( 绝对差异 ) 或 Δ = 1 ( 相对差异 ) 。
如改善剂量或降低副作用等。 无论是点估计法、固定 如图 3 所示,若由甲药申办方主导优效和非劣效试
界值法还是德尔菲法,定义非劣效界值的第 1 步都是 验,结果①②③④则为甲药优效于乙药,结果⑤⑥⑦
收集关于阳性对照药疗效的 M1 ,第 2 步都是在确定 为甲药非劣效于乙药,结果⑧⑨为尚不能确认甲药非
M1 之后运用临床判断确定 M2 ,第 3 步都是根据 M2 对 劣效于乙药,结果⑩为甲药劣效于乙药; 反之,若由乙
试验药的疗效进行统计推断。 不同的是,对于德尔菲 药申办方主导试验,结果①则为乙药劣效于甲药,结
Chin J Clin Pharmacol 2491
Vol. 35 No. 19 October 2019( Serial No. 297)

果②③为尚不能确认乙药非劣效于甲药,结果④⑤⑥ P < 0. 05,结果⑤⑥均为 P > 0. 05。 对于优效试验,以


为乙药非劣效于甲药,结果⑦⑧⑨⑩为乙药优效于甲 P 值判断,结果①②③④显示甲药在统计学上显著地
药。2 种条件下的结论无法呈现对称性的一致 。 优于乙药( P < 0. 05) ,结果⑦⑧⑨⑩显示乙药在统计
导致在不同方向上解读优效和非劣效试验结论 学上显著地优于甲药 ( P < 0. 05) ,而结果⑤⑥显示甲
时出现逻辑矛盾的原因是,在等效和非劣效试验中认 药和乙药无显著的统计差异( P > 0. 05) 。 但对于等效
为 Δ≠0( 绝对差异) 或 Δ≠1 ( 相对差异 ) 是可接受的 试验,
以双侧 95% CI 判断,
结果④⑦( P < 0. 05) 和结果
试验药和阳性对照药之间的临床疗效差异,但在优效 ⑤⑥( P > 0. 05) 均显示甲药和乙药在临床上等效; 对于
试验中却并非如此,而是选择了 Δ = 0 ( 绝对差异 ) 或 非劣效试验,以单侧 97. 5% CI 判断,结果①②③④⑦
[6,
24]
Δ = 1( 相对差异) 作为检验界值 ,即优效试验未能 ( P < 0. 05) 和结果⑤⑥( P > 0. 05) 均显示甲药在临床上
设定与等效和非劣效试验一样的检验界值。 若设立 非劣效于乙药, 结果④⑦⑧⑨⑩( P < 0. 05) 和结果⑤⑥
与等效和非劣效界值一样的优效界值,则由甲药申办 ( P > 0. 05) 均显示乙药在临床上非劣效于甲药。
方主导试验时,结果①为甲药优效于乙药,结果②③ 虽然在优效试验中一般使用 P 值描述试验药和
为尚不能确认甲药优效于乙药,结果④⑤⑥⑦为甲药 对照药之间的统计差异,但在实践中也会遇到统计差
等效于乙药,结果⑧⑨为尚不能确认甲药非劣效于乙 异与临床差异之间的矛盾。 以图 3 中结果⑦为例,优
药,结果⑩为甲药劣效于乙药; 反之,由乙药申办方主 效试验 结 果 显 示 乙 药 在 统 计 学 上 显 著 地 优 于 甲 药
导试验时,结果①为乙药劣效于甲药,结果②③为尚 ( P < 0. 05) ,乙药申办方据此结果进行药品注册申报 。
不能确认乙药非劣效于甲药,结果④⑤⑥⑦为乙药等 若监管机构认为,该试验虽然具有显著的统计差异,
效于甲药,结果⑧⑨为尚不能确认乙药优效于甲药, 但其实际疗效差异尚不能支持乙药在临床上优于甲
结果⑩为乙药优效于甲药。2 种条件下的结论呈现对 药的结论,即尚不能达到临床差异。 此时,申办方和
称性的一致。 因此有必要考虑设立与等效和非劣效 监管机构在统计差异 ( 实际疗效差异 ) 与临床差异之
界值一样的优效界值,避免在不同方向上解读统计结 间出现矛盾。 对于临床差异的判断需要依据合理的
论时出现逻辑矛盾。 检验界值( 绝对差异 Δ≠0 或相对差异 Δ≠1 时 ) ,若
6 检验界值与 P 值 未事先预设该界值,而是事后对其讨论设定,则申办
在统计检验中通常使用 P 值描述是否具有显著 方和监管机构很难达成一致意见。 因为,对于申办方
的统计差异。 例如,在优效试验中,当 P < 0. 05 时认 来说,事后设定的检验界值哪怕只是略微高于或低于
为具有显著的统计差异。 但在等效和非劣效试验中 实际疗效差异( 统计差异) ,其所获得的最终结局都是
一般不使用 P 值描述统计差异,而是使用双侧 95% CI 截然不同的。因此,为了避免在优效试验中可能出现
( 或者单侧 97. 5% CI) 排除检验界值来描述显著的临 的统计差异与临床差异之间的矛盾,有必要考虑事先
[8,
25 - 26]
床差异 ,原因为仅使用 P 值描述统计差异会错 设定临床上认可的检验界值。
[19]
误地解释试验结果 。因此须将检验界值与 P 值分 7 检验界值与样本量
别对应的临床差异和统计差异的概念区分开来 。 检验界值与样本量密切相关。 虽然一般情况下
优效试验选择 Δ = 0 ( 绝对差异 ) 或 Δ = 1 ( 相对差异 )
作为检验界值,但在计算样本量时却考虑了作为差异
性检验的假设,即假设试验药和对照药之间存在某种
程度的疗效差异。与此相反,等效和非劣效检验是证
明试验药和阳性对照药之间的疗效是“相等的 ”或试
验药的疗效“不差于 ”阳性对照 药。 完 全“相 等 ”或
“不差”则意味着疗效差异无限小,从而也意味着需要
无限的样本量,这是不切实际的。 因此,作为折中方
图3 检验界值的对称性 案,需要定义合理的检验界值( 绝对差异 Δ≠0 或相对
[10,
28]
Figure 3 The symmetries of margins 差异 Δ≠1 时) ,以利于计算出可接受的样本量 。
在包括检验界值在内的各方面条件相当时,由于
具有 统 计 差 异 不 等 于 具 有 临 床 差 异,反 之 亦 检验效能不同,与阳性对照药比较的优效试验的样本
[27] [29]
然 。以图 3 为 例,结 果 ① ② ③ ④ ⑦ ⑧ ⑨ ⑩ 均 为 量一般大于等效和非劣效试验 ; 但由于检验界值
2492 中国临床药理学杂志
第 35 卷 第 19 期 2019 年 10 月( 总第 297 期)

不同,即试验药与安慰剂的疗效差异大于与阳性对照 得 到 非 劣 效 结 论,则 对 非 劣 效 的 判 断 会 更 有
[34]
药的差异,在其他各方面条件相当时,与安慰剂比较 说服力 。
的优效试验的样本量一般小于与阳性对照药比较的 对非劣 效 界 值 的 设 定 主 要 基 于 对 历 史 数 据 的
[22,
30 - 31]
等效和非劣效试验 。 因此,在实践中,与阳性 Meta分析。申办方在检索历史文献时需要考虑文献
对照药比较时多选择等效或非劣效试验,而优效试验 的选择偏倚、发表偏倚等以及既往试验的设计、临床
[35]
多选择安慰剂作为对照。 由于等效试验是双侧检验 实践、试验结果等的恒定性 。 当缺乏历史数据而
而非劣效试验是单侧检验,在包括检验界值在内的各 采用德尔菲法时,应该严格按照该方法的要求收集信
[36]
方面条件相当时,等效试验所需的样本量大于非劣效 息并进行科学分析 ,以避免检验界值设定的主观
[8 - 9]
试验 。 性和随意性。
以非劣效试验为例,检验界值的较小变化可能导 在阐述检验界值的对称性以及检验界值与 P 值
致样本量的较大变化。 保守的非劣效界值需要更多 的关系时,讨论了在优效试验中事先设定临床上认可
的样本量来检测差异,但随着非劣效界值的增加,所 的检验界值 ( 优效界值 ) 的必要性。 这也符合国际人
需样本量减少,获得非劣效结论的可能性变大,这对 用药品注册技术协调会 ( ICH) E10 中阐述的“统计推
[8 - 9, 32] [37]
于药品临床试验的申办方极具诱惑力
15,
。 但是 断和临床判断 ”相结合的理念 。 当把优效试验视
过大的非劣效界值会超出可接受的试验药和阳性对 为差异性检验时,属于“统计推断 ”; 当为了避免医师
[30]
照药之间的临床疗效差异的限度 。 当通过检验界 在临床实践中对试验结果的解读产生困惑或者避免
值设定方法推导出较小的非劣效界值从而产生较大 申办方和监管机构事后讨论无法达成一致意见而考
样本量时,申办方不应该为了降低样本量而人为扩大 虑事先设定优效界值时,属于“临床判断”。
非劣效界值,而是应该仔细研究所收集到的历史数据 本文主要基于疗效终点介绍了对药物临床试验
是否满足恒定假设,是否存在“生物爬行现象 ”,以及 中预设检验界值的考虑。 对于基于安全终点的试验,
是否适用于当前试验等,从中筛选出可靠的历史数 本文对检验界值的考虑也可供其参考 。
[10]
据,重新推导出合理的非劣效界值和样本量 。这
参考文献:
些考虑也适用于等效和优效试验的检验界值与样本
[1 ] ALTHUNIAN T A,DE BOER A,KLUNGEL O H,et al. Methods
量之间的关联。
of defining the non - inferiority margin in randomized,double -
8 讨论
blind controlled trials: A systematic review [J]. Trials,2017,18
设定检验界值的目的是确保在试验药至少优于 ( 1) : 107.
安慰剂的基础上对试验药和阳性对照药的疗效进行 [2 ] LE HENANFF A,GIRAUDEAU B,BARON G,et al. Quality of
比较,即确保试验具有足够的检定灵敏度 ( assay sensi- reporting of noninferiority and equivalence randomized trials [J].

tivity) [14]
。合理的检验界值取决于适当的设定条件 295( 10) : 1147 - 1151.
JAMA,2006,
[3 ] SAAD E D,BUYSE M. Non - inferiority trials in breast and non -
和方法,而检验界值的合理与否又影响到样本量估算
small cell lung cancer: Choice of non - inferiority margins and other
和试验结论的正确与否。 因此,在药物临床试验设计 statistical aspects [J]. Acta Oncol,2012,
51( 7) : 890 - 896.
阶段需要对检验界值的设定进行充分考虑 。 [4 ] PARIENTI J J,VERDON R,MASSARI V. Methodological standards
虽然在阐述恒定假设的概念时也是以统计评价 in non - inferiority AIDS trials: Moving from adherence to compliance

和检验界值的绝对度量为例,但实际上绝对度量并不 [J / OL]. BMC Med Res Methodol,2006,6: 46. 2006 - 09 - 20


[2019 - 08 - 22]. https: / / bmcmedresmethodol. biomedcentral. com / ar-
总是适合用于评估恒定假设,因此需要判断何种类型
[13] ticles /10. 1186 /1471 - 2288 - 6 - 46.
的度量可能更适合评估恒定假设 ; 从相对度量的
[5 ] RIECHELMANN R P,ALEX A,CRUZ L,et al. Non - inferiority
角度看,预期的低事件率可能导致检验界值的绝对度 cancer clinical trials: scope and purposes underlying their design
量在临床上不合适,例如,如果对照组的观察事件率 [J]. Ann Oncol,2013,
24( 7) : 1942 - 1947.
仅为 1% ,即使非劣效界值设为事件率绝对差 0. 5% , [6 ] GANJU J,ROM D. Non - inferiority versus superiority drug claims:

这也可能意味着试验组相对于对照组有 50% 的事件 The ( not so) subtle distinction [J]. Trials,2017,
18( 1) : 278.
[13,
30] [7 ] INTERNATIONAL CONFERENCE ON HARMONISATION OF TECH-
率的增加或减少 。有研究显示,在不同的非劣效
NICAL REQUIREMENTS FOR REGISTRATION OF PHARMACEUTI-
界值的绝对度量水平上,非劣效界值的相对度量水平 CALS FOR HUMAN USE( ICH) . ICH harmonised tripartite guideline:
[33]
与对照组的观察事件率呈现不同的对应关系 。 如 Statistical principles for clinical trials ( E9) [EB / OL]. Geneva,Swit-
果在非劣效界值的绝对度量和相对度量水平上均能 1998 - 02 - 05 [2019 - 08 - 22]. http: / / www. ich. org /
zerland: ICH,
Chin J Clin Pharmacol 2493
Vol. 35 No. 19 October 2019( Serial No. 297)

fileadmin / Public _ Web _ Site / ICH _ Products / Guidelines / Efficacy / E9 / 17( 1) : 61 - 73.
Step4 / E9_Guideline. pdf. [24] DINUBILE M J. Bias and asymmetry in sequential noninferiority -
[8 ] KERAI S. Equivalence and non - inferiority trials in asnapshot superiority trial designs [J]. Clin Infect Dis,2013,56 ( 12 ) :
[J]. J Ayub Med Coll Abbottabad,2017,
29( 3) : 371 - 372. 1841 - 1842.
[9 ] ZHONG J,WEN M J,KWONG K S,et al. Testing of non - infe- [25] TURNER J R,DURHAM T A. Must new drugs be superior to those
riority and superiority for three - arm clinical studies with multiple already available? The role of noninferiority clinical trials [J]. J
experimental treatments [J]. Stat Methods Med Res,2018,
27( 6) : Clin Hypertens ( Greenwich) ,2015,
17( 4) : 319 - 321.
1751 - 1765. [26] HUSON L. Statistical assessment of superiority,equivalence and
[10] SCHUMI J,WITTES J T. Through the looking glass: understanding non - inferiority in clinical trials [J]. Clin Res Focus,2001,12
non - inferiority [J / OL]. Trials,2011,12: 106. 2011 - 05 - 03 ( 5) : 31 - 34.
[2019 - 08 - 22]. https: / / trialsjournal. biomedcentral. com / arti- [27] KRAEMER H C. Another point of view: Superiority,noninferiority,
cles /10. 1186 /1745 - 6215 - 12 - 106. and the role of active comparators [J]. J Clin Psychiatry,2011,
72
[11] CCTS 工作小组,夏结来 . 非劣效临床试验的统计学考虑 [J]. ( 10) : 1350 - 1352.
29( 2) : 270 - 274.
中国卫生统计,2012, [28] CHRISTENSEN E. Methodology of superiority vs. equivalence trials
[12] ALTHUNIAN T A,DE BOER A,GROENWOLD R H H,et al. and non - inferiority trials [J]. J Hepatol, 2007,46 ( 5 ) :
Defining the noninferiority margin and analysing noninferiority: An 947 - 954.
overview [J]. Br J Clin Pharmacol,2017,
83( 8) : 1636 - 1642. [29] MYLES P S. What’s new in trial design: Propensity scores,equiva-
[13] MAURI L,D'AGOSTINO R B S R. Challenges in the design and lence,and non - inferiority [J]. J Extra Corpor Technol,2009,
41
interpretation of noninferiority trials [J]. N Engl J Med,2017,
377 ( 4) : P6 - 10.
( 14) : 1357 - 1367. [30] MURTHY V L,DESAI N R,VORA A,et al. Increasing proportion
[14] U. S. FOOD AND DRUG ADMINISTRATION. Non - inferiority of clinical trials using noninferiority end points [J]. Clin Cardiol,
clinical trials to establish effectiveness: Guidance for industry 35( 9) : 522 - 523.
2012,
[EB / OL]. Silver Spring,MD,USA: U. S. Food and Drug Admi- [31] ERNST E. Equivalence and non - inferiority trials of CAM [J].
ni-stration,2016 - 11 - 30 [2019 - 08 - 22]. https: / / 1( 1) : 9 - 10.
Evid Based Complement Alternat Med,2004,
www. fda. gov / downloads / Drugs / Guidances / UCM202140. pdf. [32] GLL ,TEKINDAL M A. Sample size for non - inferiority tests
[15] FLEMING T R. Current issues in non - inferiority trials [J]. Stat for one proportion: A simulation study [J]. J Mod Appl Stat
27( 3) : 317 - 332.
Med,2008, 17( 1) : eP2475.
Methods,2018,
[16] EVERSON - STEWART S,EMERSON S S. Bio - creep in non - [33] TUNES DA SILVA G,LOGAN B R,KLEIN J P. Methods for e-
inferiority clinical trials [J]. Stat Med, 2010,29 ( 27 ) : quivalence and noninferiority testing [J]. Biol Blood Marrow
2769 - 2780. 15( 1 Suppl) : 120 - 127.
Transplant,2009,
[17] ODEM - DAVIS K,FLEMING T R. A simulation study evaluating [34] HEAD S J,KAUL S,BOGERS A J,et al. Non - inferiority study
bio - creep risk in serial non - inferiority clinical trials for preserva- design: Lessons to be learned from cardiovascular trials [J]. Eur
tion of effect [J]. Stat Biopharm Res,2015,
7( 1) : 12 - 24. 33( 11) : 1318 - 1324.
Heart J,2012,
[18] VAVKEN P. Rationale for and methods of superiority,noninferiori- [35] COMMITTEE FOR MEDICAL PRODUCTS FOR HUMAN USE
ty,or equivalence designs in orthopaedic,controlled trials [J]. ( CHMP) . Guideline on the choice of the non - inferiority margin
469( 9) : 2645 - 2653.
Clin Orthop Relat Res,2011, [EB / OL]. London,
UK: European Medicines Agency,2005 - 07 - 27
[19] HILLS R K. Non - inferiority trials: No better? No worse? No [2019 - 08 - 22]. http: / / www. ema. europa. eu / docs / en_GB / docu-
change? No pain? [J]. Br J Haematol,2017,
176( 6) : 883 - 887. ment_library / Scientific_guideline /2009 /09 / WC500003636. pdf.
[20] WALKER E,NOWACKI A S. Understanding equivalence and non- [36] POWELL C. The Delphi technique: myths and realities [J]. J Adv
inferiority testing [J]. J Gen Intern Med,2011,
26( 2) : 192 - 196. 41( 4) : 376 - 382.
Nurs,2003,
[21] AL DEEB M,AZAD A,BARBIC D. Critically appraising noninfe- [37] INTERNATIONAL CONFERENCE ON HARMONISATION OF TECH-
riority randomized controlled trials: A primer for emergency physi- NICAL REQUIREMENTS FOR REGISTRATION OF PHARMACEUTI-
cians [J]. CJEM,2015,
17( 3) : 231 - 236. CALS FOR HUMAN USE ( ICH) . ICH harmonised tripartite guideline:
[22] SCOTT I A. Non - inferiority trials: Determining whether alternative choice of control group and related issues in clinical trials ( E10 )
treatments are good enough [J]. Med J Aust,2009,190 ( 6 ) : [EB / OL]. Geneva,Switzerland: ICH,
2000 -07 - 20 [2019 - 08 - 22].
326 - 330. http: / / www. ich. org / fileadmin / Public_Web_Site / ICH_Products / Guide-
[23] LIU G F. A dynamic power prior for borrowing historical data in lines / Efficacy / E10/ Step4/ E10_Guideline. pdf.
noninferiority trials with binary endpoint [J]. Pharm Stat,2018, ( 本文编辑 戴荣源)

You might also like