临床试验运营预测分析建模与技术探讨
1. 事件P值计算与中心筛选
在假设 $H_0$ 成立的情况下,给定中心 $i$ 的入组数据 $(k_i, v_i)$、事件数量 $(k_A(i), k_L(i))$ 以及估计的事件发生率 $(\mu_A, \mu_L)$,实际事件数量 $B$ 的上下P值计算如下:
- 上P值:$P_{Upp}(i, B) = Pr(Bin(k_i, p(v_i, B)) \geq k_B(i))$,其中 $B = A, L$
- 下P值:$P_{Low}(i, B) = Pr(Bin(k_i, p(v_i, B)) \leq k_B(i))$,其中 $B = A, L$
这些值可以在R中使用二项分布的标准函数计算:$Pr(Bin(k, p) \leq n) = pbinom(n, size = k, prob = p)$,$n = 0, 1, \cdots, k$。通过选择不同的阈值,我们可以筛选出两种类型事件P值都较小的中心集合。特别地,事件 $L$ 上P值较小的中心反映了失访患者数量较多的情况。
2. 事件驱动试验中期的事件预测
假设在中期时间 $t_1$ 可能有两种类型的事件 $A$ 和 $L$,有 $N$ 个活跃中心,相关数据如下:
- $k_i$:中心 $i$ 招募的患者数量
- $v_i$:到时间 $t_1$ 为止,中心 $i$ 的活跃入组持续时间
事件数据分为三组患者:
| 组别 | 患者情况 | 患者数量 | 随访期持续时间 |
| ---- | ---- | ---- | ---- |
| O组 | 无事件 | $n_O$ | $z_k$ |
| A组 | 发生事件A | $n_A$ | $x_i$ |
| L组 | 失访患者 | $n_L$ | $y_j$ |
假设入组遵循PG模型,所有中心参数相同,事件发生率 $\mu_A$ 和 $\mu_L$ 对所有患者和中心都相同。用 $(\alpha, \beta)$ 表示使用入组数据和ML技术估计的PG模型参数,$\mu_A$ 和 $\mu_L$ 表示估计的事件发生率。
考虑区域 $I$ 有 $N(I)$ 个活跃中心,上述三组的事件数量分别为 $n_O(I)$、$n_A(I)$ 和 $n_L(I)$。用 $k(I, t, A)$ 表示区域 $I$ 在时间区间 $[t_1, t_1 + t]$ 内事件 $A$ 的预测数量。设 $T_1 = [T - t_1]^+$ 为中期剩余的入组持续时间。
对于每个活跃中心,根据数据 $(k_i, v_i)$ 定义后验率 $\tilde{\lambda}_l$,它服从参数为 $(\alpha + k_i, \beta + v_i)$ 的伽马分布。假设有 $N_2(I)$ 个新中心计划在未来 $t_1 + u_i$ 时间启动,入组率 $\lambda_i$ 的期望均值和方差分别为 $m_i$ 和 $s_i^2$。设 $\nu_R(A) = \nu(A) - n_A$ 为事件 $A$ 的剩余数量,$T_R$ 为试验的剩余持续时间。
定理8.1表明,区域 $I$ 在时间区间 $[t_1, t_1 + t]$ 内新事件 $A$ 的预测数量 $k(I, t, A)$ 可以表示为两个独立随机变量的卷积:
$k(I, t, A) = \Pi(\Sigma(I, t, A, T_1)) + Bin(n_O(I), p_A(t, L))$
其中,$\Sigma(I, t, A, T_1) = \sum_{i \in I, active} \tilde{\lambda} i q_A(t, 0, T_1) + \sum {i \in I, new} \lambda_i q_A(t, u_i, T_1)$,函数 $q_A(t, a, b)$ 如前文定义,第一个求和是对区域 $I$ 内所有活跃中心进行,第二个求和是对新中心进行,$p_A(t, L)$ 也有相应定义。
相应地,试验按时完成的概率为 $Pr(k(T_R, A) \geq \nu_R(A))$。这里 $k(t, A)$ 是时间区间 $[t_1, t_1 + t]$ 内事件 $A$ 的预测总数。
变量 $\Pi(\Sigma(I, t, A, T_1))$ 可以用PG变量近似,因此 $k(I, t, A)$ 的分布可以近似为PG和二项分布两个独立随机变量的卷积。对于大量事件,我们可以使用正态近似来评估事件 $A$ 数量的均值和预测边界,以及试验按时完成的概率。
3. 试验运营特征建模
为了对其他类型的事件(如重复事件)和更复杂的分层运营特征进行建模,我们引入一种基于入组过程的演化随机过程建模方法。
假设每个患者到达后会生成一个随机过程,描述某些运营特征、未来访视和相关事件的演变。对于中心 $i$,定义患者到达时间序列 ${t_{1i} \leq t_{2i} \leq \cdots}$ 和随机过程族 ${\xi_{ki}(t, \theta), t \geq 0, k = 1, 2, \cdots}$,其中 $\xi_{ki}(t, \theta)$ 与第 $k$ 个患者相关,$\theta$ 是未知参数。这些过程在不同的 $i$ 和 $k$ 下相互独立,分布与 $k$ 无关。
中心 $i$ 的演化过程定义为 $Z_i(t) = \sum_{k: t_{ki} \leq t} \xi_{ki}(t - t_{ki}, \theta)$,全局层面的演化过程定义为 $Z(t) = \sum_{i} Z_i(t)$。
以下是几个演化过程描述事件数量的例子:
- 例8.1:事件驱动试验中一种类型事件A的建模
定义过程 $\xi_{ki}(t)$ 为:当 $t < \tau_{ki}(A)$ 时,$\xi_{ki}(t) = 0$;当 $t \geq \tau_{ki}(A)$ 时,$\xi_{ki}(t) = 1$,其中 $\tau_{ki}(A)$ 相互独立且与 $\tau_A$ 分布相同。则过程 $Z_i(t)$ 表示中心 $i$ 在时间区间 $[0, t]$ 内事件 $A$ 的数量。
- 例8.2:事件驱动试验中两种类型事件的建模
定义 ${x_{ki}(t), t \geq 0}$ 为具有三个状态 ${0, A, L}$ 的右连续马尔可夫链,状态 $A$ 和 $L$ 为吸收态,从状态 0 到 $A$ 和 $L$ 的转移率分别为 $\mu_A$ 和 $\mu_L$。定义二维过程 $\xi_{ki}(t) = (\chi(x_{ki}(t) = A), \chi(x_{ki}(t) = L))$,则过程 $Z_i(t)$ 表示中心 $i$ 在时间区间 $[0, t]$ 内事件 $A$ 和 $L$ 的数量向量。
- 例8.3:重复事件建模
考虑一个在时间 0 启动的中心,入组遵循PG过程,入组率 $\lambda$ 服从伽马分布。每个患者到达后生成一个速率为 $\mu$ 的泊松过程,表示某些临床或运营事件。设 $Y(t)$ 为时间区间 $[0, t]$ 内的事件总数,则 $Y(t)$ 可以表示为演化过程,其中通用过程 $\xi(t)$ 是速率为 $\mu$ 的齐次泊松过程。
通过以下步骤可以对 $Y(t)$ 进行分析:
1. 正态近似
- 计算 $A(t) = E[\xi(t)] = \mu t$,$B^2(t) = E[\xi^2(t)] = \mu t + \mu^2 t^2$。
- 根据公式 $E[Y(t)] = m\frac{\mu t^2}{2}$,$Var[Y(t)] = m(\frac{\mu t^2}{2} + \frac{\mu^2 t^3}{3}) + s^2\frac{\mu^2 t^4}{4}$,其中 $m = E[\lambda]$,$s^2 = Var[\lambda]$,对于大量中心 $N$,可以使用正态近似,均值为 $N E[Y(t)]$,方差为 $N Var[Y(t)]$。
2. 矩生成函数(MGF)推导
- 假设 $\lambda$ 为确定性的,$f(\psi, t) = E[\exp(\psi \xi(t))] = \exp(\mu t (e^{\psi} - 1))$,$\phi(\psi, t) = \frac{1}{\mu t (e^{\psi} - 1)}(e^{\mu t (e^{\psi} - 1)} - 1)$,则 $E[\exp(\psi Y(t))] = \exp(-\lambda t (1 - \phi(\psi, t)))$。
- 概率生成函数(PGF)$P(z, t) = E[z^{Y(t)}] = \exp(-\lambda t (1 - \frac{1}{\mu t (z - 1)}(e^{\mu t (z - 1)} - 1)))$。
- 可以通过 $Pr(Y(t) = 0) = P(0^+, t)$ 和 $Pr(Y(t) = k) = \frac{1}{k!}\frac{\partial^k P(z, t)}{\partial z^k}|_{z = +0}$ 计算概率分布。
当 $\mu t$ 较小时,$P(z, t) \approx \exp(-\frac{\lambda \mu t^2}{2}(1 - z))$,对应速率为 $\frac{\lambda \mu t^2}{2}$ 的泊松过程,此时 $Pr(Y(t) = 0) \approx 1 - \frac{\lambda \mu t^2}{2}$,$Pr(Y(t) = k) \approx \frac{(\lambda \mu t^2)^k}{k!}$。
mermaid流程图如下:
graph TD
A[患者入组] --> B[生成随机过程]
B --> C[计算演化过程]
C --> D[分析事件数量]
D --> E[正态近似]
D --> F[MGF推导]
E --> G[计算均值和方差]
F --> H[计算PGF]
H --> I[计算概率分布]
综上所述,本文介绍的方法为临床试验运营的预测分析建模提供了有效的工具,可以对各种运营特征进行建模和分析,为试验的优化设计和调整提供依据。
4. 多事件建模与分布特性
假设存在多个事件 $A_1, A_2, \cdots, A_K$,单个患者的事件演变由通用多状态右连续过程 $x(t)$ 描述,其中状态 $A_1, A_2, \cdots, A_K$ 为吸收态,不同患者的过程 $x_{ki}(t)$ 相互独立且分布相同。定义 $K$ 维过程 $\xi_{ki}(t) = (\chi(x_{ki}(t) = A_1), \chi(x_{ki}(t) = A_2), \cdots, \chi(x_{ki}(t) = A_K))$,则中心 $i$ 在时间区间 $[0, t]$ 内的事件数量向量 $(k(t, A_1), k(t, A_2), \cdots, k(t, A_K))$ 可由演化过程 $Z_i(t)$ 表示。
在一般情况下,若中心 $i$ 的入组遵循速率为 $\lambda(t)$ 的双随机泊松过程,且事件演化过程 $x(t)$ 的转移概率 $Q(0, A_k, t) = Pr(x(t) = A_k | x(0) = 0)$ 可计算($k = 1, \cdots, K$),则中心 $i$ 的向量 $(k(t, A_1), k(t, A_2), \cdots, k(t, A_K))$ 服从 $K$ 维双随机泊松分布,参数向量为 $(g(t, A_1), \cdots, g(t, A_K))$,其中 $g(t, A_k) = \int_{0}^{t} \lambda(u)Q(0, A_k, t - u)du$($k = 1, \cdots, K$)。
特别地,当速率 $\lambda(u)$ 为确定性时,向量的各分量相互独立,且服从参数为 $g(t, A_k)$ 的泊松分布。多事件在不同治疗领域(如肿瘤学研究、多发性硬化症等)可能出现,对于特定的事件出现模型,过程 $x(t)$ 可描述为马尔可夫链,转移概率可通过解析形式推导。
5. 演化过程的均值、方差与矩生成函数
为了以解析形式计算演化过程的均值和方差,我们可以使用以下结果。假设某个中心在区间 $[0, T]$ 内活跃,入组速率 $\lambda$ 可能是随机的,中心的演化过程 $Z(t)$ 根据通用过程 $\xi(t)$ 构建。设 $A(t) = E[\xi(t)]$,$B^2(t) = E[\xi^2(t)]$,则有:
- 均值计算 :$E[Z(t)] = E[\lambda] \int_{0}^{\min(t, T)} A(t - u)du$
- 方差计算 :$Var[Z(t)] = E[\lambda] \int_{0}^{\min(t, T)} B^2(t - u)du + Var[\lambda] (\int_{0}^{\min(t, T)} A(t - u)du)^2$
该结果可用于在大量中心的情况下,基于正态近似创建预测区间。此外,在一定条件下,还可以计算演化过程 $Z(t)$ 的矩生成函数(MGF)。设 $\xi(t)$ 的 MGF 为 $f(\psi, t) = E[\exp(\psi \xi(t))]$(在 $\psi \leq \psi_0$ 区域存在,对于任意 $t > 0$),则 $Z(t)$ 的 MGF 为:
$E[\exp(\psi Z(t))] = E[\exp(-\lambda \min(t, T) (1 - \phi(\psi, t, T)))]$
其中 $\phi(\psi, t, T) = \frac{1}{\min(t, T)} \int_{0}^{\min(t, T)} f(\psi, t - u)du$。
若 $\lambda$ 服从参数为 $(\alpha, \beta)$ 的伽马分布,则 $E[\exp(\psi Z(t))] = \beta^{\alpha} (\beta + \min(t, T) (1 - \phi(\psi, t, T)))^{-\alpha}$。
当过程 $Z(t)$ 取值为整数时,使用概率生成函数(PGF)$G(z, t) = E[z^{Z(t)}]$($|z| \leq 1$)更为方便,且有 $G(z, t) = M(\log(z), t)$,其中 $M(\psi, t)$ 为 MGF。
6. 总结与应用展望
本文围绕临床试验运营的预测分析建模展开,介绍了事件P值计算、事件预测、试验运营特征建模等多个方面的技术和方法。通过引入演化随机过程,为描述和分析临床试验中的各种运营特征提供了统一的框架。
在实际应用中,这些方法可以帮助我们更好地理解和预测临床试验的进展,例如:
- 中心筛选 :通过计算事件的上下P值,筛选出具有特定特征的中心,如失访患者数量较多的中心,以便进行针对性的管理和调整。
- 事件预测 :利用事件驱动试验中期的预测模型,预测未来事件的数量和试验完成的概率,为试验的进度控制和资源分配提供依据。
- 运营特征建模 :通过演化随机过程对各种运营特征进行建模,如重复事件、患者访视等,有助于深入分析试验的运营情况,优化试验设计和流程。
未来,随着临床试验的复杂性不断增加,这些技术和方法有望在更多领域得到应用和拓展,为提高临床试验的效率和质量提供有力支持。
表格总结关键公式:
| 公式类型 | 公式内容 |
| ---- | ---- |
| 事件上下P值 | $P_{Upp}(i, B) = Pr(Bin(k_i, p(v_i, B)) \geq k_B(i))$,$P_{Low}(i, B) = Pr(Bin(k_i, p(v_i, B)) \leq k_B(i))$ |
| 事件预测数量 | $k(I, t, A) = \Pi(\Sigma(I, t, A, T_1)) + Bin(n_O(I), p_A(t, L))$ |
| 多事件参数 | $g(t, A_k) = \int_{0}^{t} \lambda(u)Q(0, A_k, t - u)du$ |
| 演化过程均值 | $E[Z(t)] = E[\lambda] \int_{0}^{\min(t, T)} A(t - u)du$ |
| 演化过程方差 | $Var[Z(t)] = E[\lambda] \int_{0}^{\min(t, T)} B^2(t - u)du + Var[\lambda] (\int_{0}^{\min(t, T)} A(t - u)du)^2$ |
| 矩生成函数 | $E[\exp(\psi Z(t))] = E[\exp(-\lambda \min(t, T) (1 - \phi(\psi, t, T)))]$ |
mermaid流程图展示整体流程:
graph LR
A[数据收集] --> B[事件P值计算]
B --> C[中心筛选]
A --> D[事件预测建模]
D --> E[事件数量预测]
E --> F[试验完成概率计算]
A --> G[运营特征建模]
G --> H[演化过程构建]
H --> I[均值、方差计算]
I --> J[矩生成函数推导]
J --> K[概率分布分析]
C --> L[中心管理调整]
F --> M[试验进度控制]
K --> N[试验设计优化]
通过以上的技术和方法,我们可以构建一个全面的临床试验运营预测分析体系,为临床试验的成功实施提供坚实的保障。
超级会员免费看

32

被折叠的 条评论
为什么被折叠?



