25、临床富集设计效率与自适应方法解析

postgres8guard

于 2025-11-28 12:12:23 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：现代临床试验的革新之路文章标签：临床富集设计自适应设计生物标志物

本文链接：https://blog.youkuaiyun.com/postgres8guard/article/details/155378328

现代临床试验的革新之路专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

临床富集设计效率与自适应方法解析

1. 经典富集设计效率

在评估分子靶向治疗的 III 期随机试验中，研究人员对比了全人群设计（所有患者均可参与试验）和富集设计（限制特定亚组人群参与）。评估基于二元或连续终点，且假设检测方法能预测从靶向治疗中获益的患者亚组。
- 二元终点相对效率 ：靶向设计相对于非靶向设计的相对效率公式为：（此处省略公式，因原文未明确写出），其中 (n_{e}) 和 (n_{a}) 分别表示富集设计和全人群设计中达到相同统计功效所需随机分配的患者数量。
- 连续终点相对效率 ：同样有相应的相对效率表达式，假设各治疗组和亚组内方差恒定。

为计算达到特定功效所需的样本量，开发了多个宏：
- %MSpower 宏 ：用于计算拒绝原假设达到指定功效所需的最小样本量。参数包括：
1. beta：II 型错误率
2. alpha：I 型错误率
3. p1：对照结果小于治疗结果的概率
4. p2：对照结果同时小于两个独立治疗结果的概率
5. p3：治疗结果同时大于两个独立对照结果的概率

%macro MSpower(beta, p1, p2, p3, alpha);
   data result;   
      delta=1-(&alpha/2);      
      za=quantile('Normal', delta);      
      p1=&p1; p2=&p2; p3=&p3;alpha=&alpha;      
      do i= 1 to 10000;      
         nsize=i;
         denum=(i**2)*( p1*(1-p1) + (i-1)*(p2 + p3 - 2*(p1**2)) );
         den=sqrt(denum);
         a=(0.5* (i**2) + za*sqrt((i**2)*(2*i + 1)/12) - 0.5 - (i**2)*p1)/den;   
         beta= CDF('Normal', a);
         power=1-beta;
         output;      
         if beta<=&beta then i=10001;      
      end;   
   run;
   data result2;
      set result end =_end;   
      end=_end;      
      if end;      
      if beta>&beta then do;
        warning=1;
        nsize2=">10000";
      end;
      else do;
        nsize2=compress(nsize);
      end;      
      label nsize2='sample size';
    run;
   proc format;
      value wa 1='required sample size greater than 10000';
   run;

   proc print noobs label;
     var nsize2 p1 p2 p3 alpha beta power warning;
     format warning wa.;
   run;
%mend MSpower;
%MSpower(0.2, 0.7, 0.6, 0.4, 0.05);

运行结果表明，提供 80% 功效拒绝原假设所需的最小样本量为每组 23 名患者，总样本量 46 名患者时实际功效为 82%。具体结果如下表所示：
| Sample Size | p1 | p2 | p3 | alpha | beta | power |
| — | — | — | — | — | — | — |
| 23 | 0.7 | 0.6 | 0.4 | 0.05 | 0.17842 | 0.82158 |

若治疗结果服从正态分布，可使用 %simnorm 宏；若服从伽马分布，则使用 %simgamma 宏计算所需样本量。

当检测方法不能 100% 准确区分生物标志物阳性和阴性组时，相对效率公式需考虑误差，这些误差仅对富集设计产生负面影响。检测特异性对于确定靶向临床试验所需随机患者数量的效率至关重要，而检测灵敏度则对所需筛查患者数量起关键作用。

2. 自适应富集设计

近年来，制药和生物技术研究投入增加，但临床开发成功率并未相应提高。美国食品药品监督管理局（FDA）发起“关键路径倡议”，鼓励创新临床试验设计，尤其是自适应设计方法和贝叶斯方法的应用。自适应设计允许在试验启动后根据累积数据调整试验和/或统计程序，同时不损害试验的有效性和完整性。常见的前瞻性预定义适应方法包括：
1. 分组序贯设计
2. 样本量重新估计设计
3. 自适应剂量寻找设计
4. 淘汰失败者设计
5. 自适应随机化设计
6. 自适应治疗转换设计
7. 假设自适应设计
8. 自适应无缝试验设计
9. 多重自适应设计

以下主要讨论与生物标志物选择和富集相关的自适应设计：

2.1 频率主义方法

自适应特征设计 ：该设计适用于潜在生物标志物和临界值均未知，但有证据表明靶向治疗可能对某些筛选出的生物标志物有效的情况。设计包含三个要素：
1. 试验有足够功效在试验结束时检测总体治疗效果
2. 在试验第一阶段识别可能从靶向治疗中获益的患者亚组
3. 基于试验后半段随机分配的患者亚组进行统计假设检验，以检测治疗差异

%macro power(pe, pc, alpha, N);
data result;
pe=&pe;
pc=&pc;
alpha=&alpha;
N=&N;
b=1-&alpha;
pbar=(pe+pc)/2;
za=quantile('Normal', b);
num=(pe-pc)-za*sqrt(pbar*(1-pbar)*4/N);
den=sqrt(pe*(1-pe)*2/N+pc*(1-pc)*2/N);
a=num/den;
power=CDF('Normal', a);
run;
proc print noobs;
var pe pc N alpha power;
run;
%mend power;
%power(0.5, 0.2, 0.05, 100);

此设计的优点是降低在关键试验中失去更广泛人群标签的风险，但缺点是只有一半患者用于开发或验证，若生物标志物敏感患者亚组患病率低，可能需要大量患者进行筛查，且高维数据可能需要大样本量来保证试验功效。

生物标志物自适应阈值设计 ：该设计将总体治疗效果测试与预定义生物标志物亚组临界值的开发和验证相结合。通过分割总体 I 型错误率进行统计假设检验，先在总体人群中以 (\alpha_1) 比较治疗反应，若不显著则在 (\alpha_2) 进行第二次检验。

%macro events(delta, alpha, beta, pi);
data result;
alpha=&alpha;
power=1-&beta;
delta=&delta;
pi=&pi;
za=quantile('Normal', 1-&alpha);
zb=quantile('Normal', 1-&beta);
logd=log(&delta);
D=4*((za+zb)/logd)**2;
Ds=D/(pi**2);
label delta='hazard ratio';
label pi="treatment effect fraction";
label Ds='events required';
run;
proc print noobs label;
var alpha power delta pi Ds;
run;
%mend events;
%events(2, 0.05, 0.2, 0.8);

该设计适用于已知生物标志物但临界值未知的情况，能结合总体人群的正式假设检验和生物标志物定义亚组效果的不确定性，提高新疗法 III 期评估的效率。

交叉验证自适应特征设计 ：是自适应特征设计的扩展，旨在优化开发和验证组件的效率。该设计允许对研究中的整个样本进行完全交叉验证，保留总体研究的 I 型错误率，提高检测从靶向治疗中获益的患者亚组临床显著治疗差异的统计功效。使用该设计的宏需要指定三个数据集：
1. OutcomeInput：包含治疗和治疗结果的受试者信息
2. GeneInput：包含用于开发潜在生物标志物的受试者基因信息
3. TPInput：包含指定的调优参数候选值

libname perm “directory of sample data”;
%macro Decision(outcome, gene, par, alpha1, seed);
   %global seedit;
   %let seedit = &seed;
   data outcome;
      set &outcome;
   run;
   data gene;
      set &gene;
   run;
   data par;
      set &par;
   run;
   proc freq data=Outcome;
   table response*treatment/chisq;
   output out=chisqtest chisq;
   run;
   data _null_;
   set  chisqtest;
   call symput ("chisq_pvalue",P_PCHI);
   run;
   /*If the chi-squre test is significant based on prespecified*/ 
   /*alpha1, then print result and abort*/
   /*Otherwise, need to move on to CVASD stage*/
   %if  &chisq_pvalue <&alpha1 %then %do; 
   title "Chi-square Test SIGNIFICANT";
   proc print data=chisqtest;
   run;
   %abort;
   %end;
%mend Decision;
%Decision(perm.adsl, perm.adgene, perm.par, 0.04,12345);

该设计通过交叉验证提高了自适应特征设计的性能，但选定的基因集在部分病例缺失时可能不稳定。

自适应无缝 II/III 期设计 ：将传统在单独试验中解决的目标合并到一个试验中，消除了试验之间的时间间隔，可能在患者总数或长期随访方面提供额外效率。然而，这种设计的统计方法需要考虑潜在偏差，并解决由于多重性、多次查看数据（中期分析）和独立阶段数据组合带来的统计问题。FDA 认为无缝 II/III 期设计由于统计和操作问题“不太被理解”，要求申办者进行广泛模拟并尽早与卫生当局沟通。
灵活自适应无缝（富集）设计 ：试验分两个阶段进行。在第一阶段，招募所有受试者；基于中期数据决定是继续在所有受试者中进行研究，还是仅在生物标志物亚组人群中进行。根据中期分析结果，第二阶段测试可在总体人群、亚组人群或两者作为共同主要人群中进行。

%macro subpower(f,alpha_a, beta_a, es_ratio, alpha_g);  
data result;
f=&f;
alpha_a=&alpha_a;
beta_a=&beta_a;
es_ratio=&es_ratio;
za=quantile('Normal', 1-&alpha_a);
zb=quantile('Normal', 1-&beta_a);
zag=quantile('Normal', 1-&alpha_g);
d=sqrt(&f)*es_ratio*(za+zb)-zag;
sub_power=CDF('Normal', d);
label es_ratio="effect size ratio";
label f="sample size ratio";
run;
proc print noobs label;
var f alpha_a beta_a es_ratio sub_power;
run;
%mend subpower; 
%subpower(0.5, 0.04, 0.2, 2, 0.01)

该设计具有灵活性，可降低过早放弃有前景亚组的风险，但需要控制多重性以保证统计有效性。

mermaid 流程图如下：

graph LR
    A[开始] --> B[经典富集设计]
    B --> C[二元终点评估]
    B --> D[连续终点评估]
    C --> E[计算相对效率]
    D --> E
    E --> F[开发宏计算样本量]
    F --> G[自适应富集设计]
    G --> H[频率主义方法]
    H --> I[自适应特征设计]
    H --> J[生物标志物自适应阈值设计]
    H --> K[交叉验证自适应特征设计]
    H --> L[自适应无缝 II/III 期设计]
    H --> M[灵活自适应无缝（富集）设计]

3. 贝叶斯方法

贝叶斯自适应随机化（BAR）富集设计 ：自适应临床试验的一个重要特征是利用中期数据的累积信息不断更新设计，这与贝叶斯范式自然契合。贝叶斯方法通过更新先验信念来处理新数据，直接对治疗效果进行概率陈述。与频率主义自适应设计不同，贝叶斯推断不受中期分析次数或时间的影响，允许对累积研究数据进行多次分析以更新所研究的概率。

在常见的评估两种治疗和一种二元生物标志物的情况下，BAR 设计可实现以下三个目标：
1. 测试生物标志物是预后性还是预测性
2. 测试新治疗在所有患者或特定生物标志物亚组患者中是否优于标准治疗
3. 根据患者的生物标志物状态，为更多患者分配可能更有效的治疗

该设计基于分层模型，可自然扩展到多种治疗和多种生物标志物的情况。对于具有特定生物标志物特征的患者，随机化比率可根据公式调整。

BAR 富集设计已成功应用于多个肿瘤学的高调临床试验，如 BATTLE 试验和 I - SPY 2 试验。然而，该设计的一个明显局限性是自适应随机化需要快速周转时间来学习中期数据并调整随机化率，因此仅适用于能在相对较短时间内评估终点的试验。

贝叶斯/频率主义生物标志物 - 治疗相互作用设计 ：在生存终点且只有一个生物标志物的情况下，提出了一种两阶段贝叶斯设计。该设计是频率主义自适应设计的贝叶斯版本，利用中期分析的第一阶段数据对患者招募和试验进展做出决策。它结合了贝叶斯方法的灵活性和频率主义方法对 I 型和 II 型错误率的控制，在中期分析时，将后验概率与预设阈值进行比较，可采取三种可能的行动：
1. 停止试验
2. 在中期阶段停止招募生物标志物阴性组患者
3. 继续招募阴性和阳性患者

这种设计能够在数据表明无益处时限制接受试验药物的生物标志物阴性患者数量，相比频率主义版本的设计具有一定优势。

综上所述，不同的富集设计和自适应方法在临床研究中各有优缺点和适用场景。研究人员需要根据具体的研究问题、数据特点和资源情况选择合适的设计方法，以提高临床试验的效率和成功率，推动新药研发和精准医疗的发展。在实际应用中，还需要充分考虑各种方法的局限性，并结合模拟研究和与监管机构的沟通，确保试验的科学性和合规性。未来，随着技术的不断进步和研究的深入，这些设计方法有望不断优化和完善，为临床研究带来更多的机遇和挑战。

临床富集设计效率与自适应方法解析

4. 不同设计方法的对比与应用建议

为了更清晰地了解各种设计方法的特点和适用场景，下面对上述介绍的经典富集设计和自适应设计方法进行对比分析：

设计方法	适用情况	优点	缺点
经典富集设计	已知生物标志物能预测靶向治疗获益亚组	相对简单，可基于明确的生物标志物进行分组，提高试验效率	检测方法不准确时效率受影响，对生物标志物的依赖性强
自适应特征设计	潜在生物标志物和临界值未知，但靶向治疗可能有效	能降低失去广泛人群标签的风险，可识别潜在获益亚组	只有一半患者用于开发或验证，患病率低时需大量筛查患者，高维数据需大样本量
生物标志物自适应阈值设计	已知生物标志物但临界值未知	结合总体和亚组检验，提高新疗法 III 期评估效率	需要合理分割 I 型错误率，统计方法较复杂
交叉验证自适应特征设计	自适应特征设计的扩展场景	优化开发和验证效率，提高统计功效	选定基因集可能不稳定
自适应无缝 II/III 期设计	将传统分开的试验目标合并	消除试验间隔，可能提高整体效率	统计方法需考虑多种问题，FDA 要求严格
灵活自适应无缝（富集）设计	试验过程中对人群和终点有不确定性	降低过早放弃有前景亚组的风险，灵活性高	需要控制多重性，操作较复杂
贝叶斯自适应随机化（BAR）富集设计	需要根据累积数据动态调整随机化	可同时评估治疗和生物标志物，为患者分配更有效治疗	仅适用于短时间可评估终点的试验
贝叶斯/频率主义生物标志物 - 治疗相互作用设计	生存终点且只有一个生物标志物	结合贝叶斯灵活性和频率主义错误率控制	两阶段设计需合理利用中期数据决策

根据以上对比，给出以下应用建议：
- 若生物标志物明确且检测方法准确，经典富集设计是一个不错的选择，可直接基于生物标志物进行分组试验。
- 当潜在生物标志物和临界值未知，但有一定证据支持靶向治疗效果时，自适应特征设计或其扩展的交叉验证自适应特征设计较为合适。
- 已知生物标志物但临界值不确定，生物标志物自适应阈值设计能有效结合总体和亚组的检验。
- 对于希望将不同阶段试验合并，提高整体效率的情况，可考虑自适应无缝 II/III 期设计，但需做好充分的统计和沟通准备。
- 试验过程中对人群和终点有较大不确定性，灵活自适应无缝（富集）设计能提供更多的灵活性。
- 若试验能在短时间内评估终点，且需要根据累积数据动态调整随机化，贝叶斯自适应随机化（BAR）富集设计可发挥优势。
- 在生存终点且只有一个生物标志物的情况下，贝叶斯/频率主义生物标志物 - 治疗相互作用设计能平衡贝叶斯和频率主义的优点。

5. 实际案例分析

为了更好地理解上述设计方法的应用，下面介绍几个实际案例：

5.1 BATTLE 试验

BATTLE 试验是一个将贝叶斯自适应随机化（BAR）富集设计应用于肺癌治疗的临床试验。该试验针对晚期非小细胞肺癌（NSCLC）患者，这些患者之前接受过化疗但治疗失败。试验的主要目标是根据患者的肿瘤生物标志物特征，评估不同靶向治疗的疾病控制率。

在试验中，采用了贝叶斯 probit 模型来表征每个治疗组在不同生物标志物亚组中的疾病控制率，并根据患者的生物标志物状态自适应地调整随机化比率。这样可以为更多患者分配可能更有效的治疗，同时测试生物标志物的预测性和治疗的有效性。

通过这种设计，BATTLE 试验能够在相对较短的时间内评估多种靶向治疗和生物标志物的组合，为肺癌的精准治疗提供了有价值的信息。

5.2 Ravaud 等人的肾细胞癌研究

Ravaud 等人进行了一项关于肾细胞癌患者的随机研究，比较了标准治疗和拉帕替尼（Lapatinib）的疗效。该研究涉及 EGFR/ErbB2 表达的患者，整体生存数据显示，在总体人群中两种治疗方法没有显著差异。

然而，在肿瘤中 EGFR 过表达的亚组患者中，拉帕替尼治疗的总体生存率有显著提高。这种情况说明了在临床研究中，可能存在治疗效果在总体人群和亚组人群中的差异。如果在研究早期没有考虑到生物标志物亚组的影响，可能会错过有潜力的治疗方法。

在这种情况下，生物标志物自适应阈值设计或自适应特征设计可以在试验中更早地识别出可能获益的亚组，减少后续需要进行额外验证性试验的可能性，从而提高研发效率。

6. 总结与展望

本文详细介绍了临床富集设计的效率评估和多种自适应设计方法，包括经典富集设计、频率主义自适应设计和贝叶斯自适应设计。这些设计方法在不同的场景下各有优劣，能够满足临床研究中多样化的需求。

经典富集设计基于明确的生物标志物进行分组，简单直接，但对检测方法的准确性要求较高。频率主义自适应设计通过灵活调整试验过程，能够在生物标志物信息不完全明确的情况下识别潜在获益亚组，但可能面临样本量和多重性等问题。贝叶斯自适应设计则利用累积数据动态调整随机化和决策，在短时间可评估终点的试验中具有独特优势。

未来，随着生物医学技术的不断发展，更多的生物标志物将被发现，数据的收集和分析能力也将不断提高。这将为临床富集设计和自适应方法带来更多的机遇和挑战。例如，如何更好地处理高维生物标志物数据，如何在多组学数据的基础上进行更精准的亚组识别，以及如何进一步优化自适应设计的算法和决策规则等。

同时，监管机构对临床试验设计的要求也在不断提高，需要研究者在设计试验时更加注重科学性、合规性和伦理问题。在实际应用中，研究者应根据具体的研究问题、资源情况和监管要求，综合选择合适的设计方法，并不断探索和创新，以推动临床研究的发展，为患者提供更有效的治疗方案。

mermaid 流程图如下：

graph LR
    A[选择设计方法] --> B{生物标志物情况}
    B -->|明确且检测准确| C(经典富集设计)
    B -->|潜在未知且有证据| D(自适应特征设计)
    B -->|已知但临界值未知| E(生物标志物自适应阈值设计)
    B -->|合并不同阶段试验| F(自适应无缝 II/III 期设计)
    B -->|人群和终点不确定| G(灵活自适应无缝（富集）设计)
    B -->|短时间可评估终点| H(贝叶斯自适应随机化设计)
    B -->|生存终点且一个生物标志物| I(贝叶斯/频率主义生物标志物 - 治疗相互作用设计)
    C --> J(开展试验)
    D --> J
    E --> J
    F --> J
    G --> J
    H --> J
    I --> J
    J --> K(分析结果)
    K --> L{是否达到预期}
    L -->|是| M(得出结论)
    L -->|否| N(调整设计或方法)
    N --> A

总之，临床富集设计和自适应方法在临床研究中具有重要的应用价值，未来的发展前景广阔，但也需要研究者不断努力和创新，以应对各种挑战。