临床试验入组预测与再预测技术解析
1. 引言
在临床试验的不同阶段,准确预测患者入组情况至关重要。在启动和早期阶段,一些基于全球入组模型的方法可能并不适用,因为此时活跃中心和招募患者数量较少。下面将介绍一种 PG 模型在启动阶段的形式化表达,以及如何在不同层面进行入组建模和预测。
2. 试验启动阶段的入组预测
2.1 数据准备
在试验启动阶段,临床团队通常拥有类似临床试验在相关地点或区域的历史入组信息,也可采用专家估计。通过分析这些历史数据,团队能得出计划试验在中心或国家层面的入组率的期望均值和标准差,用于估计预测中使用的入组率的先验参数。每个中心可获取以下数据:
- (m_i):平均入组率
- (s_i^2):入组率的方差
- (u_i):中心启动时间,可能是具有给定分布的随机变量
在 PG 模型框架下,假设中心 (i) 的入组率 (\lambda_i) 服从参数为 ((\alpha_i, \beta_i)) 的伽马分布,其中 (\alpha_i = m_i^2 / s_i^2),(\beta_i = m_i / s_i^2)。中心 (i) 的入组过程 (n_i(t)) 是一个 PG 过程,累积率为 (\lambda_i[t - u_i]^+)。
2.2 计算单个中心入组过程的均值和方差
对于一个具有累积率 (\Lambda(t)) 的双随机泊松过程 (\Pi(\Lambda(t))),有以下关系:
(E[\Pi(\Lambda(t))] = E[\Lambda(t)]),(Var[\Pi(\Lambda(t))] = E[\Lambda(t)] + Var[\Lambda(t)])
假设入组率为 (\lambda),中心启动时间为 (\tau)(随机变量,累积分布函数为 (G(x) = Pr(\tau \leq x))),则入组过程 (n(t)) 是累积率为 (\Lambda(t) = \lambda_i[t - \tau]^+) 的双随机泊松变量。定义以下函数:
(m(t) = \int_0^t xdG(x))
(b^2(t) = \int_0^t x^2dG(x))
可计算出:
(E[\Lambda(t)] = E[\lambda] (tG(t) - m(t)))
(E[\Lambda^2(t)] = E[\lambda^2] (t^2G(t) - 2tm(t) + b^2(t)))
由于 (Var[\Lambda(t)] = E[\Lambda^2(t)] - (E[\Lambda(t)])^2),则:
(E[n(t)] = E[\Lambda(t)])
(Var[n(t)] = E[\Lambda(t)] + Var[\Lambda(t)] = E[\Lambda(t)] + E[\Lambda^2(t)] - (E[\Lambda(t)])^2)
2.3 不同情况的计算
- 中心启动时间为确定性时 :若中心启动时间 (\tau = u),入组率 (\lambda) 的均值为 (m),方差为 (s^2),则:
- 当 (t > u) 时,(E[\Lambda(t)] = m(t - u)),(Var[\Lambda(t)] = s^2(t - u)^2)
- 当 (t \leq u) 时,(E[\Lambda(t)] = 0),(Var[\Lambda(t)] = 0)
中心入组过程 (n(t)) 的均值和方差根据上述关系计算。
- 区域入组情况 :考虑一个有 (N(I)) 个中心的区域 (I),已知每个中心的 (m_i)、(s_i^2) 和 (u_i)。区域 (I) 的累积率为 (\Lambda(I, t)),则:
- (E(I, t) = \sum_{i \in I} m_i[t - u_i]^+)
- (S^2(I, t) = \sum_{i \in I} s_i^2[t - u_i]^2_+)
可根据上述公式计算区域 (I) 入组过程 (n(I, t)) 的均值和方差。
- 中心启动时间为随机变量时
-
均匀分布 :若中心启动时间在区间 ([a, b]) 上服从均匀分布,中心累积入组率 (\Lambda(t)) 的均值 (M(t, a, b, m)) 和方差 (S^2(t, a, b, m, s^2)) 如下:
- (M(t, a, b, m) = \begin{cases} 0, & t \leq a \ \frac{m(t - a)^2}{2(b - a)}, & a < t \leq b \ mt - \frac{m(a + b)}{2}, & t > b \end{cases})
- (S^2(t, a, b, m, s^2) = \begin{cases} 0, & t \leq a \ \frac{m^2(t - a)^3(4b - a - 3t)}{12(b - a)^2} + \frac{s^2(t - a)^3}{3(b - a)}, & a < t \leq b \ \frac{(m^2 + s^2)(b - a)^2}{12} + s^2(t - \frac{a + b}{2})^2, & t > b \end{cases})
区域 (I) 累积率的均值和方差为:
- (E[\Lambda(I, t)] = E(I, t) = \sum_{i \in I} M(t, a_i, b_i, m_i))
- (Var[\Lambda(I, t)] = S^2(I, t) = \sum_{i \in I} S^2(t, a_i, b_i, s_i^2)) -
伽马分布 :若中心在区间 ([a, \infty)) 启动,启动时间 (\tau = a + \eta),(\eta) 服从参数为 ((\psi, \theta)) 的伽马分布,入组率 (\lambda) 均值为 (m),方差为 (s^2)。有:
- (m(t) = aF(t - a, \psi, \theta) + \frac{\psi}{\theta}F(t - a, \psi + 1, \theta))((t > a),(t \leq a) 时为 0)
- (b^2(t) = a^2F(t - a, \psi, \theta) + 2a\frac{\psi}{\theta}F(t - a, \psi + 1, \theta) + \frac{\psi(\psi + 1)}{\theta^2}F(t - a, \psi + 2, \theta))((t > a),(t \leq a) 时为 0)
可据此计算每个中心的 (E[\Lambda(t)]) 和 (Var[\Lambda(t)]),再通过求和得到区域 (I) 的 (E[\Lambda(I, t)]) 和 (Var[\Lambda(I, t)])。
-
贝塔分布 :若中心启动时间 (\tau) 在区间 ([a, b]) 上服从贝塔分布,(\tau = a + (b - a)\beta(p, q)),其中 (\beta(p, q)) 是区间 ([0, 1]) 上参数为 ((p, q)) 的贝塔分布随机变量。设 (z = (t - a)/(b - a)),有:
- (m(t) = aB(z, p, q) + (b - a)Q_1(z, p, q))
- (b^2(t) = a^2B(z, p, q) + 2a(b - a)Q_1(z, p, q) + (b - a)^2Q_2(z, p, q))
其中 (Q_1(z, p, q) = \frac{p}{p + q}B(z, p + 1, q)),(Q_2(z, p, q) = \frac{p(p + 1)}{(p + q)(p + q + 1)}B(z, p + 2, q))。利用这些公式和相关关系,可解析计算任何区域入组过程的均值和方差。
3. 试验启动阶段任意区域的入组预测
考虑区域 (I),累积率为 (\Lambda(I, t)),记 (E(I, t) = E[\Lambda(I, t)]),(V^2(I, t) = E[\Lambda(I, t)] + Var[\Lambda(I, t)])。
若区域 (I) 的中心数量 (N(I)) 较大(一般 (N(I) > 10),为获得良好近似和估计参数,建议 (N(I) \geq 20)),则对于任何 (t > 0),过程 (n(I, t)) 可近似为均值为 (E(I, t))、方差为 (V^2(I, t)) 的正态随机变量。预测的 ((1 - \delta)) 置信区间为:
([E(I, t) - z_{1 - \frac{\delta}{2}}V(I, t), E(I, t) + z_{1 - \frac{\delta}{2}}V(I, t)])
定义过程 (n(I, t)) 的近似上 (Q) 界为:
(Z(Q, t) = E(I, t) + z_QV(I, t))
近似下 (P) 界为:
(Z(1 - P, t) = E(I, t) + z_{1 - P}V(I, t))
这些公式可用于评估达到区域目标的预测区间。
对于全球入组过程,其均值和方差函数 ((E(t), V^2(t))) 可通过对所有中心求和计算。在一定条件下,曲线 (E(t) + z_{1 - \frac{\delta}{2}}V(t)) 和 (E(t) - z_{1 - \frac{\delta}{2}}V(t)) 与水平线 (y = n) 的交叉区间可作为全球入组时间的近似 ((1 - \delta)) 预测区间。
若 (N(I) < 10),正态近似效果可能不佳。此时,可将累积率 (\Lambda(I, t)) 近似为参数为 ((A(I, t), B(I, t))) 的伽马分布随机变量,其中 (A(I, t) = \frac{E^2(I, t)}{S^2(I, t)}),(B(I, t) = \frac{E(I, t)}{S^2(I, t)})。过程 (n(I, t)) 可近似为参数为 ((1, A(I, t), B(I, t))) 的 PG 过程。
在 R 中,对于 PG 变量 (PG(t, \alpha, \beta)),有以下标准函数:
Pr(PG(t, \alpha, \beta) = k) = dnbinom(k, size = \alpha, prob = \frac{\beta}{\beta + t})
Pr(PG(t, \alpha, \beta) \leq k) = pnbinom(k, size = \alpha, prob = \frac{\beta}{\beta + t})
Q(P, t, \alpha, \beta) = qnbinom(P, size = \alpha, prob = \frac{\beta}{\beta + t})
这些公式可用于数值评估过程 (n(I, t)) 的预测分布和界限。
mermaid 流程图:试验启动阶段入组预测流程
graph LR
A[数据准备] --> B[计算单个中心均值和方差]
B --> C{中心启动时间情况}
C -->|确定性| D[计算区域均值和方差(确定性情况)]
C -->|随机变量| E{分布类型}
E -->|均匀分布| F[计算区域均值和方差(均匀分布)]
E -->|伽马分布| G[计算区域均值和方差(伽马分布)]
E -->|贝塔分布| H[计算区域均值和方差(贝塔分布)]
D --> I[区域入组预测(大中心数量)]
F --> I
G --> I
H --> I
I --> J[区域入组预测(小中心数量)]
表格:不同分布下中心启动时间的相关计算
| 分布类型 | (m(t)) 表达式 | (b^2(t)) 表达式 |
|---|---|---|
| 伽马分布 | (aF(t - a, \psi, \theta) + \frac{\psi}{\theta}F(t - a, \psi + 1, \theta))((t > a)) | (a^2F(t - a, \psi, \theta) + 2a\frac{\psi}{\theta}F(t - a, \psi + 1, \theta) + \frac{\psi(\psi + 1)}{\theta^2}F(t - a, \psi + 2, \theta))((t > a)) |
| 贝塔分布 | (aB(z, p, q) + (b - a)Q_1(z, p, q)) | (a^2B(z, p, q) + 2a(b - a)Q_1(z, p, q) + (b - a)^2Q_2(z, p, q)) |
以上是试验启动阶段的入组预测相关内容,下一部分将介绍试验中期阶段的入组再预测。
临床试验入组预测与再预测技术解析
4. 试验中期阶段的入组再预测
4.1 再预测的必要性与数据基础
在试验中期阶段,利用实际数据重新估计模型参数十分必要,目的是使模型参数适应实际数据,提高剩余入组预测的准确性。通常此时已有一定数量的活跃中心,且招募了相当数量的患者,足以进行统计估计。不过,具体的方法和结果会因试验目标和数据可用性而异。
中期阶段还可能涉及其他任务,如评估入组表现、基于风险的监测、检测中心或国家的异常值等。
假设存在 (N) 个活跃中心,不同中心的入组过程采用 PG 过程建模。为简化,可假定所有中心来自同一中心池,即具有相同的 PG 入组模型参数。若不满足此条件,可将中心划分为若干簇,使每个簇内的中心具有同质性。
假设所有入组率 (\lambda_i) 具有相同参数 ((\alpha, \beta)) 的先验伽马分布。在中期时间 (t_1),可获取以下数据:
- (k_i):中心 (i) 招募的患者数量
- (v_i):截至时间 (t_1) 中心 (i) 的活跃入组持续时间
4.2 参数估计
利用数据 ((k_i, v_i))((i = 1, \cdots, N)),可使用最大似然技术估计参数 ((\alpha, \beta))。对数似然函数(忽略常数项)为:
(L(\alpha, \beta) = \sum_{i = 1}^{N} \ln \Gamma(\alpha + k_i) - N \ln \Gamma(\alpha) + N\alpha \ln \beta - \sum_{i = 1}^{N} (\alpha + k_i) \ln(\beta + v_i) + C)
通过数值优化可找到最大似然估计量。根据最大似然估计的一般理论,估计量渐近正态:
((\hat{\alpha}, \hat{\beta}) \sim (\alpha, \beta) + B N(0, 1) / \sqrt{N})
其中 (N(0, 1)) 表示标准正态随机变量。当 (N) 较大时,估计误差几乎可忽略不计。为保证估计的准确性,建议至少有 20 个中心,且总共招募 30 - 40 名患者。对于较小的 (N) 值,该估计技术仍适用,但需单独评估估计误差及其对预测准确性的影响。
4.3 调整先验率
由于不同中心最初的入组率不同,接下来需将估计的先验率调整为实际的中期数据。采用经验贝叶斯方法,因为泊松分布和伽马分布是共轭分布,已知在中心 (i) 给定数据 ((k_i, v_i)) 的情况下,后验率 (\tilde{\lambda}_i) 也服从参数为 ((\alpha + k_i, \beta + v_i)) 的伽马分布。
因此,建议将中心 (i) 的未来入组过程建模为具有后验率 (\tilde{\lambda}_i) 的双随机泊松过程,这也是一个 PG 过程。
记 (\tilde{n}(I, t) = n(I, t_1 + t) - n(I, t_1))((t > 0))为区域 (I) 的剩余增量预测入组过程。若区域 (I) 内的所有中心持续招募直至全球招募停止,则 (\tilde{n}(I, t)) 是具有后验累积率的双随机泊松过程:
(\tilde{\Lambda}(I, t) = t \sum_{i \in I} \tilde{\lambda}_i)
一般情况下,该累积率不服从伽马分布。
为简化,用 ((\alpha, \beta)) 表示最大似然估计量。单个后验率的均值和方差计算公式如下:
(E[\tilde{\lambda}_i] = \frac{\alpha + k_i}{\beta + v_i})
(Var[\tilde{\lambda}_i] = \frac{\alpha + k_i}{(\beta + v_i)^2})
记:
(\tilde{E}(I) = \sum_{i \in I} \frac{\alpha + k_i}{\beta + v_i})
(\tilde{S}^2(I) = \sum_{i \in I} \frac{\alpha + k_i}{(\beta + v_i)^2})
则后验累积率的均值和方差为:
(E[\tilde{\Lambda}(I, t)] = \tilde{E}(I)t)
(Var[\tilde{\Lambda}(I, t)] = \tilde{S}^2(I)t^2)
4.4 预测方法
对于区域 (I) 的剩余预测入组过程 (\tilde{n}(I, t)),可采用以下两种方法进行建模:
-
正态近似
:若 (N(I)) 较大,可将 (\tilde{n}(I, t)) 近似为正态分布。
-
PG 过程近似
:将 (\tilde{n}(I, t)) 近似为参数为 ((t, \tilde{A}(I), \tilde{B}(I))) 的 PG 过程,其中:
(\tilde{A}(I) = \frac{\tilde{E}^2(I)}{\tilde{S}^2(I)})
(\tilde{B}(I) = \frac{\tilde{E}(I)}{\tilde{S}^2(I)})
对于这两种方法,均可使用封闭形式的表达式计算预测均值和患者招募数量的界限。相应地,可使用 (Q) 界或 PG 分布的分位数来评估达到区域目标或总样本量的预测时间界限。
4.5 考虑新中心的情况
在实际试验中,中期时并非所有中心都已启动,未来可能会启动一些新中心。若中心启动时间是确定性的,可采用相关技术预测未来入组过程。
假设临床团队有中心启动的计划时间表,例如按月安排。通常意味着有 (N_2) 个新中心计划在给定时间区间 ((a_i, b_i)) 内启动,且已知其入组率的均值和标准差 ((m_i, s_i))((i = 1, \cdots, N_2))。在缺乏其他信息的情况下,可假设启动时间在相应区间内服从均匀分布。
记 (\tilde{\Lambda}(N_2, t)) 为这 (N_2) 个中心的全球累积入组率,其均值和方差可使用之前的公式计算。所有中心(包括活跃中心和待启动中心)的全球率为:
(\tilde{\Lambda}(N, N_2, t) = \tilde{\Lambda}(N, t) + \tilde{\Lambda}(N_2, t))
其中 (\tilde{\Lambda}(N, t)) 是 (N) 个活跃中心的后验全球累积入组率。
因此,在考虑新中心启动的情况下,可使用相同的技术(正态近似或 PG 过程近似)预测剩余入组过程。计算表明,在这种情况下两种近似方法几乎一致,PG 近似更具通用性。
4.6 剩余入组时间的分布
若活跃中心数量在入组结束前保持不变,可直接评估剩余入组时间的分布。当所有中心同时启动时,该思想首次被提出;对于一般情况,可使用 PG 近似剩余入组过程;对于单个中心的特殊情况,也有相关研究。
定义具有参数 ((n, c, d)) 的 Pearson 类型 VI 分布,其概率密度函数为:
(p(x, n, c, d) = \frac{1}{B(n, c)} \frac{x^{n - 1} d^c}{(x + d)^{n + c}})((x \geq 0))
其中 (B(n, c)) 是贝塔函数。
若活跃中心数量保持不变,在相当一般的条件下,剩余入组过程的全球后验累积率 (\tilde{\Lambda}(N, t)) 可近似为均值为 (\tilde{E}t)、方差为 (\tilde{S}^2t^2) 的伽马随机变量,其中 ((\tilde{E}, \tilde{S}^2)) 通过对所有中心求和计算得出。因此,全球剩余入组过程可近似为参数为 ((t, \tilde{A}, \tilde{B})) 的 PG 过程,其中 ((\tilde{A}, \tilde{B})) 根据所有中心的数据计算。根据相关理论,剩余入组时间可近似为参数为 ((n_R, \tilde{A}, \tilde{B})) 的 Pearson 类型 VI 分布,其中 (n_R) 是剩余待招募的患者数量。
虽然 R 中没有计算 Pearson 类型 VI 分布特征的标准公式,但有专门的包 PearsonDS 可用于计算各种特征。不过,为方便实际应用,可采用计算预测入组过程的预测界限的方法。
4.7 成功概率(PoS)
成功概率(PoS)指在计划时间前完成入组的概率。记 (n(t)) 为全球入组过程,(n) 为入组目标(样本量),(\Omega) 为入组时间(达到入组目标的时间),(T_{pl}) 为计划入组时间。
对于任何 (t > 0),有:
(Pr(\Omega \leq t) = Pr(n(t) \geq n))
因此,PoS 为 (Pr(n(T_{pl}) \geq n))。可采用不同方法评估该概率:
- 若中心数量和预测患者数量足够大,可使用正态近似 (n(t))。此时,对于任何 (t > 0):
(Pr(\Omega \leq t) \approx \Phi(\frac{E(t) - n}{V(t)}))
其中 (E(t)) 和 (V^2(t)) 是全球入组过程 (n(t)) 的均值和方差函数,(\Phi(x)) 是标准正态分布的累积分布函数。因此,PoS 为:
(PoS = \Phi(\frac{E(T_{pl}) - n}{V(T_{pl})}))
成功完成入组的标准为:
(E(T_{pl}) \geq n + z_P V(T_{pl}))
其中 (z_P) 是标准正态分布的 (P) 分位数。
mermaid 流程图:试验中期阶段入组再预测流程
graph LR
A[获取中期数据] --> B[参数估计]
B --> C[调整先验率]
C --> D{预测方法选择}
D -->|正态近似| E[正态近似预测]
D -->|PG 过程近似| F[PG 过程近似预测]
E --> G[考虑新中心情况]
F --> G
G --> H[计算剩余入组时间分布]
H --> I[计算成功概率(PoS)]
表格:不同预测方法及相关参数
| 预测方法 | 适用条件 | 参数计算 |
|---|---|---|
| 正态近似 | (N(I)) 较大 | 均值 (E[\tilde{\Lambda}(I, t)] = \tilde{E}(I)t),方差 (Var[\tilde{\Lambda}(I, t)] = \tilde{S}^2(I)t^2) |
| PG 过程近似 | 一般情况 | (\tilde{A}(I) = \frac{\tilde{E}^2(I)}{\tilde{S}^2(I)}),(\tilde{B}(I) = \frac{\tilde{E}(I)}{\tilde{S}^2(I)}) |
综上所述,在临床试验的不同阶段,可采用多种方法进行入组预测和再预测,以提高预测的准确性和可靠性,为试验的顺利进行提供有力支持。
超级会员免费看
809

被折叠的 条评论
为什么被折叠?



