随访时间差异对率比荟萃分析的影响

治疗组间随访时间不同的率比荟萃分析: 推断医疗器械的比较有效性

劳伦·M·昆茨,a,b*†莎伦‐莉丝·T·诺曼德b,c和阿特·塞德拉基安d

对事件进行建模时需要考虑不同治疗组之间的随访持续时间差异,尤其是在合并随机化和观察性研究时。尽管事件可能在随访期间的任何时间点发生,且删失在整个过程中持续存在,但大多数应用研究人员仍使用比值比作为关联度量,假设各治疗组的随访持续时间相似。我们推导了在单个研究二分类治疗设置中错误假设随访持续时间相等时率比的偏倚。模拟结果说明了偏倚、效率和覆盖率,并表明当各组随访持续时间之比偏离1时,偏倚和覆盖率迅速恶化。通过分层泊松回归模型合并各研究的率比,我们在三种情况下通过模拟考察总体率比的偏倚和覆盖率:所有研究均提供各组平均特定随访持续时间、部分研究提供以及没有任何研究提供按组特定的随访信息的情况。在零效应情况下,若使用研究平均随访持续时间,则偏倚和覆盖率较差;而即使仅获得部分按组随访信息,偏倚和覆盖率也会改善。当率比远离零效应时,偏倚和覆盖率仍然较差。我们进一步探讨了心脏再同步治疗装置与具有除颤器功能的装置相比的有效性,其中八项研究中有三项报告了按组随访持续时间。版权所有©2015JohnWiley&Sons,Ltd.

关键词: 汇总数据;贝叶斯;比较有效性

引言

一种常用于推断治疗比较有效性的统计工具是荟萃分析,该方法通过标准统计原理将从文献中获得的研究特异性估计进行合并。随着医学文献的不断增加以及计算进展使得更广泛的统计建模技术成为可能,荟萃分析的类型也随之增多[1]。研究人员不仅合并来自随机试验的研究效应估计,还合并来自观察性研究的估计[2],,或通过跨设计综合合并随机和观察性研究的估计 [3],,以及通过网络meta分析合并对应于不同研究的试验组的估计[4]。日益依赖网络或跨设计荟萃分析凸显了差异随访持续时间的问题,当事件在随访期间的任何时间点发生且删失在整个随访期间持续出现时,必须对此进行校正。

传统荟萃分析包含 I 项主要研究,这些研究使用每个治疗组 j 的汇总信息 {Yij,nij} (例如统计量和样本量),以关于参数 θij 的共同目标对总体参数 μ 进行推断。当各治疗组的随访持续时间不同时,我们需要每个研究组中的暴露量 ̄ej = ∑ n j k=1 e jk∕ nj,其中 ejk 表示个体 k 的随访在 j 组中。尽管在研究中使用发生率模型或生存模型较为常见,但大多数应用研究人员仍继续使用比值比作为关联性的主要度量指标,通过建模特定时间范围内的事件概率来合并研究结果。例如,生物医学中心的一篇文章 [5] 回顾了 Cochrane 图书馆一年的数据,报告指出大多数与癌症相关的荟萃分析(63%)采用的是比值比或相对风险,而非风险比。

当随访时间固定时,可通过事件数和总人数来建模死亡概率,并假设各治疗组的随访持续时间相同或相似。对于时间至事件数据的荟萃分析,如果每项研究中各组报告了观察到的事件数和对数秩检验的预期事件数,则可直接估计对数风险比;或者,若提供了Cox回归结果中的对数风险比及其方差[6],也可进行估计。Parmar[7]详细介绍了其他方法,适用于报告风险比及置信区间、Mantel–Haenszel版本的对数秩统计量的p值,或已发表的生存曲线的情况。

观察性研究的荟萃分析中存在差异随访持续时间的问题尤为具有挑战性。例如,在为美国食品药品监督管理局的医疗设备流行病学网络(MDEpiNet)开展的工作中,我们需要评估心脏再同步治疗(CRT)器械与带有除颤功能的心脏再同步治疗器械(CRT‐D)相比的安全性和有效性。这两种均为植入式起搏器,用于改善心力衰竭患者的机械同步性,均涉及三条导线的放置(右心房、左心房和右心室)。CRT‐D额外具备除颤功能

表I. 除颤器功能与单纯心脏再同步治疗主要研究:基线特征、详细随访信息及全因死亡率结果。
#平均年龄%% % NYHA 平均值(标准差) 平均值(标准差) QRS
研究 Year患者 (年) Male IHD III类 左心室射血 分数百分比 (毫秒)
Adlbrecht et al.[9] 2009 205 65 (11) 78 46 83 27.5 158 (31) Stabile 等[10] 2009 233 69 (8) 77 49 69 26.5 ⩽ 120 Bai等[11] 2008 542 67 (11) 77 67 81 20 162 (24) Auricchio 等[12] 1298 2007 64 (9) 76 43 80 24 168 (29) Ermis等[13]
2004 126 69 (11.5) 96 56 87 22 NA Pappone 等[14] 2003 135 64 (11) 76 43 100 28 153 (11)
总/平均观察值 2539 66.3 80 50.7 83.3 24.7 160.3 Bristow等[15] 2004 1212 67(未报告) 67 55 87 21 160(NA) Schuchert 等[16] 2013 402 68(9) 80 50 85 25 163(NA)
随机总数/平均数 1614 67.5 73.5 52.5 86 23 161.5 随访(月) 全因死亡率/N 研究 总体 CRT‐D CRT f= e 1
e 0 CRT‐D CRT
Adlbrecht et al.[9] 16.8 (12.4) NA NA NA 19/110 9/95 Stabile 等[10] 58 (15) 56.8 60.1 0.95 49/116 53/117 Bai等[11] 26.7 (17.6) NA NA NA 73/395 57/147 Auricchio 等[12] 34 (未报告) NA NA NA 91/726 119/572 Ermis等[13] 13.5 (12) 13 18 0.72 8/62 26/64 Pappone 等[14] 27.6 (8.4) NA NA NA 6/88 9/47
总/平均观察值 NA NA NA 246/1497 273/1042
Bristow等[15] NA 16 16.5 0.97 105/595 131/617 Schuchert 等[16] 12 NA NA NA 20/228 19/174
随机总数/平均数 NA NA 125/823 150/791

IHD,缺血性心脏病;NYHA,纽约心脏病协会;LVEF,左心室射血分数;CRT‐D,除颤器功能;CRT,心脏再同步治疗。QRS 表示心室去极化所需的时间。NA 表示数据未报告。各治疗组的随访比例用 f = ̄e 1 ∕ ̄e0 表示。

版权所有 © 2015 约翰威立父子有限公司 统计医学 2015,34 2913–2925

L. M. 昆兹, S.‐L. T. 诺曼德 和 A. 塞德拉基扬

具备快速终止心律失常的能力。这些设备在成本上有所不同,患者的平均费用CRT‐D( 82,200美元)高于单独CRT(59,900美元)。尽管目前缺乏专门设计用于评估CRT‐D相较于单独CRT增量获益的临床试验,但接受双心室起搏治疗的绝大多数患者现在都植入了CRT‐D设备。表I总结了比较CRT‐D与单独CRT的8项研究。该比较是更大规模证据综合项目的一部分,旨在比较CRT‐D、单独CRT和最佳药物治疗。检索策略基于此前由医疗保健研究与质量局资助发表的一篇关于左心室收缩功能障碍中心脏再同步治疗和植入式心律转复除颤器的全面综述。

CRT研究的数据综合存在若干复杂性。首先,各研究的平均随访时长为25.7个月,标准差为15.3个月。在此时间段内对数风险的恒定性值得怀疑,因此需要全面考虑随访时间。其次,并非所有主要研究都采用生存时间方法。有关全因死亡率的信息包括每治疗组的死亡人数、每治疗组的总患者人数以及两组合并的平均随访时长(而非按组平均)。通常用于确定每治疗组人‐月随访的方法是将报告的平均随访月数乘以每个治疗组的总入组人数。在所有主要研究中,全因死亡率的平均值为每1000人‐月8.83例死亡:CRT‐D组为每1000人‐月7.37例死亡,单独 CRT组为每1000人‐月10.63例死亡。对于观察性研究,死亡率为每1000人‐月8.43例,而随机对照试验研究的死亡率更高,为每1000人‐月10.03例死亡。表I提供了按研究列出的额外随访信息,其中证据表明不同治疗组之间存在差异随访时间。仅有三项研究提供了有关按组随访时间的任何信息。

在第2节中,我们通过理论计算推导了在具有两个治疗组的单个研究情境下率比的偏倚。我们使用模拟来说明忽略不同治疗组随访持续时间时的偏倚、效率和覆盖率。我们提出了一个在元分析环境中合并率比的模型。在此背景下,我们利用模拟来描述估计量的操作特征如何随差异随访持续时间的变化而变化,并阐述按治疗组提供的随访信息的可获得性如何影响这些估计量。在第3节中,我们对CRT‐D和CRT研究进行了数据分析。最后,在第4节中,针对随访时间因治疗组而异以及该信息不可用的情况,我们提出了进行荟萃分析的建议。

方法

一项研究

考虑一项双臂研究,关注的是对照组(j = 0) 和治疗组(j = 1) 的率比。假设来自第 j 组的事件数 Yj ∼ Pois(θj) ,其中预期事件数为 θ j 。第 j 组的平均随访时长为 ej = ∑ n j k=1 ejk∕ nj,其中 k 表示个体索引,nj表示第 j 组中的个体总数。我们写作θ j = λ j ×ej × nj,其中 λj 为死亡率,定义为 λj = ξ exp(ω×j)。参数 ξ 表示第 j 组的结局发生率,ω 是第 j = 1 组相对于第 j = 0 组的结局对数率比。ω 的最大似然估计(MLE)为

ω̂= log( λ̂ 1 λ̂ 0) = log( Y 1∕ e 1 n 1 Y 0∕ e 0 n 0) (1)

因为 λ̂ j = Y j e j n j。当每个治疗组的平均随访时间相同时,最大似然估计仅取决于每组中的受试者数量, ω̂= log(Y 1 ∕ 0 ∕ n 1 0) Yn。

当随访信息未按每个治疗组分别报告,而是针对整个研究进行报告时,最常用的方法是假设每个治疗组的随访持续时间相同,使得估计量变为:

版权所有 © 2015 John Wiley & Sons, Ltd. 统计医学 2015年,34 2913–2925

L. M. 昆兹, S.‐L. T. 诺曼德 和 A. 塞德拉基扬

ω̂∗= log( λ̂∗ 1 λ̂∗ 0) = log(Y1∕n1 Y0∕n0) (2)

当 λ̂∗j= Yj ̄ enj时,率比(RR)的正确估计量和错误估计量(定义为exp(ω))均存在偏倚(推导过程见附录A.1)。

E{̂ exp(ω) − exp(ω)}= exp(ω)[ ξe0n0 (ξe0n0)2+ 3(ξe0n0)+ 1] and (3)

E{̂ exp(ω∗) − exp(ω)}= exp(ω)[(f − 1)+ f ξe0n0 (ξe0n0)2+ 3(ξe0n0)+ 1]; f= e1 > 0. (4)

当 ̄e1= ̄e0, f= 1时,偏倚相同。当f< 1,意味着在j= 0组中有更长的随访,方程(4)中的项( f −1)为负,因此错误估计量低估了真实率比̂。当f> 1时,类似的论证表明RR∗高估了真实率比。

单个研究模拟

为了说明随访不均衡的影响,我们在多种条件下进行了包含1000次实验的模拟研究。我们假设CRT组的随访时间为e0= 24个月,CRT‐D组的随访时间通过 ̄e1=f × ̄ e0= 24f进行变化,并允许f以0.05为步长在0.8至1.3之间变动。例如,表I中报告的Stabile、 Ermis和COMPANION研究的f值分别为0.945、0.722和0.970。我们假设每组的人数相等, 即n0= n1= 200。对照组CRT组的基础死亡率设定为 ξ= 0.01例死亡/人‐月。结果如图1所示, 展示了三种率比情况下的结果:RR= 1,0.7 和 0.5(差异较大)。

∗ )/bias(RR);MSE,均方误差 = 1∕1000 × ∑( θ̂ − θ) 2;RE,相对效率 =MSE(RR ∗ )/MSE(RR))

版权所有 © 2015 John Wiley & Sons, Ltd. 统计医学 2015,34 2913–2925

L. M. 昆兹, S.‐L. T. 诺曼德 和 A. 塞德拉基扬

使用研究平均随访而非按组随访的影响可能很大。模拟结果证实了理论偏倚的结论。通常情况下,当治疗组的随访时间较短时,f< 1.0,错误的率比估计方法会低估真实率比;而当治疗组的随访时间较长时,f> 1.0,则会高估真实率比。当 f ≠ 1 时,错误率比的均方误差大于正确率比的均方误差。随着 f 偏离1,错误率比的覆盖率从期望的95%下降。此外,尽管在所有 f ≠ 1.0 情况下,错误估计量的偏倚更大,但当 f 略小于1(约0.9)时,相对效率更有利于错误估计量。我们还考察了研究组样本量不等的实验,其相对偏倚随 f= 1.0 偏离而增加的模式与图1相同(结果未显示)。

多项研究

假设有 I 项主要研究,而不是一项研究,第 j 组、第 i 项研究中的事件数 Yij ∼服从泊松分布 (θij) θij= λij × eij × nij where λij= ξi exp(ωi ×j). (5)

与之前相同, ξi 表示第 i 项研究中 j= 0 组的事件率, ωi 表示第 i 项研究中 j= 1 与 j= 0 组事件的对数率比,λij 表示事件率,nij 表示个体总数,eij 表示平均人‐月随访时间, θij 表示预期事件数。假定基线率和对数相对率比在不同研究间存在变异,以考虑研究间变异。

ξi indep. ∼ Gamma(a, b) andωi indep. ∼ Normal(μ, σ2). (6)

在对照组中选择伽玛分布作为事件率可确保正值性,并且在具有泊松数据的分层模型中常被使用[17]。对数相对率选择正态分布,以适应正值和负值。

完全贝叶斯方法为所有超参数赋予适当的分布,但本文重点关注 μ和σ2。由公式(5)–(6)定义的模型假设所有i和j的eij是已知的。当每组的平均人‐月随访时间和每组的总人数可获得时,则各组总随访时间∑ n ij k=1 eijk= nij ×eij。然而,与之前一样,我们假设eij=∑ n ij k=1 eijk∕n ij不可用,而报告的是ei= e i1 n i1 +ei0ni0 n i1 +ni0。主要关注点仍然是exp(μ),即所有研究的总体率比。由于我们是在多个研究之间合并估计值,因此 σ,研究间标准差也是一个关键参数。在我们这项动机研究中,由于主要研究数量很少,总体结果将对此参数敏感。

多项研究模拟

我们在36种不同的参数配置下生成了1000次实验:3种相对率 × 2 标准差值 × 6 f 的取值。我们假设研究数量适中,I= 20 项研究。我们固定了 μ(这I项研究的汇总对数率比)和 σ(对数率比的研究间标准差)。从 N(μ, σ)中抽取了二十个单独的对数率比ωi。我们还固定了通过伽玛分布模拟ξi的形状和尺度参数,设为a= 2.55 和 b= 0.00445,这意味着平均基线率为a × b= 1.13 每100人‐月,并在j= 0组中抽样了20个基线率。与单个研究模拟相同,我们假设每个研究内两组的样本量相等,但允许各研究间的样本量有所变化。这是通过从uniform(50, 1000)中抽取样本量实现的。

对照组的平均随访时间ei0通过均匀分布的混合生成。我们假设九项研究的ei0 ∼ uniform(10, 32),九项研究来自uniform(33, 57),两项研究来自uniform(58, 200)。在此情况下,研究间随访时间范围可能为10至200个月。我们设f= e i1∕ ei0,并生成平均死亡人数 θ i j = λ i j × ei j ×ni j,然后假设数据服从泊松分布,据此模拟死亡人数。

我们通过假设完全了解两组的随访情况(例如,正确的暴露)来估计人时,然后再次使用两组的平均暴露(例如,错误的方法)进行估计。我们使用WinBUGS软件[18]拟合数据,并对ξ i ∼ gamma(2.5, 224.7)和ω i ∼ N(μ, σ 2 )设置无信息先验,其中 μ ∼ N(0, 10 6 )和 σ ∼半正态分布(0.26)。在分层模型中,研究间标准差的先验分布的选择比总体均值的先验分布的选择更具影响力。半正态分布确保了正值性

版权所有 © 2015 约翰威立父子有限公司 统计医学 2015,34 2913–2925
标准差,而且由于其在0处有众数,因此也允许研究之间没有差异。半正态分布(0.26)表示 0.26是方差,得到对数率比的研究间标准差的中位数值为0.39,95%分位数为1.0。

我们运行了一条包含20,000次迭代的链,预热10,000次,每10次稀释一次,最终得到 1000次马尔可夫链蒙特卡洛(MCMC)迭代。通过使用格威克诊断评估收敛性,以获得最终的 1000次模拟。参数的推断基于这1000次MCMC迭代产生的后验均值;这些后验均值在1000次 模拟中取平均值。可信区间通过将1000次迭代结果排序后取2.5%和97.5%百分位数得到。覆盖 率通过计算1000次模拟中有多少次参数的真实值落在2.5%和97.5%百分位数之间来确定。

当f偏离1.0时,错误的RR的偏倚和覆盖率变得更差(表II)。 σ的偏倚和覆盖率不受f的 影响,且在正确方法与错误方法之间相似(表II)。相对偏倚(错误估计量的百分比偏差除以 正确估计量的百分比偏差)在远离零值RR= 1时,其绝对值 tends to be larger。相对偏倚

表II. 使用部分报告的随访时间对率比 exp(μ) 和研究间标准差 σ 的百分比偏差和覆盖率:20 项主要研究的模拟结果,作为治疗组相对随访的函数。
相对风险 = 1 相对风险 = 0.7 相对风险 = 0.5 σ2= 0.01 σ2= 0.05 σ2= 0.01 σ2= 0.05 σ2= 0.01 σ2= 0.05
f Corr错误 Corr错误 Corr错误 Corr错误 Corr错误 Corr错误
相对风险:偏倚 0.9 2.00 −8.07 5.32 −4.67 −0.86 −10.49 3.33 −6.84 3.34 −6.58 5.38 −4.82 0.95 3.22 −1.68 0.62 −4.51 1.16 −4.17 3.40 −1.54 −4.20 −9.34 −1.86 −6.70 1.0 2.51 2.52 −0.87 −0.84 2.54 2.54 -4.67 −4.67 0.78 0.78 −0.62 −0.60
1.05 −0.66 4.57 1.87 7.15 2.71 8.41 2.69 8.11 −1.54 3.50 4.16 9.42 1.1 −0.13 9.87 −2.79 6.58 2.71 13.00 −2.91 6.46 −0.58 9.02 −0.14 9.34 1.2 −1.96 17.16 4.49 24.81 −1.01 18.79 −1.10 18.37 1.42 21.58 5.16 25.72
相对风险:覆盖率 0.9 0.986 0.322 0.987 0.995 0.998 0.044 0.998 0.970 0.956 0.774 0.986 0.996 0.95 0.951 0.990 1.000 0.978 0.990 0.940 0.994 0.991 0.955 0.447 0.992 0.819 1.0 0.963 0.963 1.000 1.000 0.983 0.984 0.998 0.990 0.995 0.994 0.998 0.999 1.05 0.991 0.844 1.000 0.750 0.993 0.651 0.999 0.902 0.986 0.968 0.998 0.897 1.1 0.997 0.346 0.989 0.931 0.973 0.201 1.000 0.992 1.000 0.636 1.000 0.879 1.2 0.984 0.000 0.991 0.001 0.991 0.002 1.000 0.115 0.982 0.000 0.989 0.001 σ: 偏倚 0.9 9.90 15.60 12.75 12.75 10.30 10.05 18.92 17.89 47.60 46.30 5.50 6.62 0.95 9.80 10.90 −8.45 −9.66 39.40 42.20 −11.76 −10.73 61.30 63.50 −24.51 −25.00 1.0 −4.80 −4.60 −7.02 −6.98 24.90 25.10 10.64 10.60 48.10 48.10 −9.97 −9.93 1.05 −1.10 −2.90 −34.75 −34.39 53.30 57.40 −3.40 −3.53 50.90 50.90 11.81 12.16 1.1 20.10 17.30 −13.15 −14.22 52.10 52.50 28.17 27.82 52.80 55.20 11.23 9.62 1.2 16.50 14.10 −8.36 −7.11 32.20 30.90 7.83 8.32 24.70 23.80 −0.98 −0.89
σ:覆盖率 0.9 0.991 0.985 0.994 0.992 0.988 0.989 0.983 0.986 0.869 0.885 0.998 0.998 0.95 0.985 0.984 0.996 0.994 0.892 0.872 0.987 0.991 0.684 0.656 0.890 0.885 1.0 0.983 0.980 0.995 0.996 0.937 0.937 0.989 0.990 0.849 0.842 0.981 0.975 1.05 0.988 0.991 0.650 0.667 0.774 0.731 1.000 1.000 0.842 0.847 0.994 0.991 1.1 0.969 0.978 0.962 0.958 0.754 0.757 0.942 0.947 0.807 0.783 0.998 0.998 1.2 0.980 0.979 0.999 1.000 0.956 0.960 0.999 0.998 0.956 0.961 0.999 1.000

百分比偏差 [( 估计值 – 真实值)/真实值 × 100 ] 。

版权所有 © 2015 John Wiley & Sons, Ltd. 统计医学 2015,34 2913–2925

L. M. 昆兹,S.‐L. T. 诺曼德和A. 塞德拉基扬

当 σ2较小时,其幅度更大(结果未显示)。当σ2较小时,覆盖率概率下降得更快,因为在研究间变异较小的情况下,包含真实均值更加困难。

部分报告的随访时间

为解决按研究组部分报告随访持续时间信息的问题,我们考察了两种情况。第一种情况中,我们假设某些研究未按研究组完全随机缺失(MCAR)的方式报告随访信息。第二种情况中,“缺失”机制为随机缺失(MAR),并与研究是观察性还是随机化有关。与之前多个研究的情形相同,数据在泊松模型下生成,假设每个研究组的随访已知。如果某项研究被选为缺失按组随访信息,则其随访将被替换为该研究两个研究组的平均随访。

在完全随机缺失(MCAR)情况下,每项研究平均有17.5%的概率被选中而不具有按组随访数据。在1000次模拟中,平均有3.5项研究缺失按组随访数据(最少0项研究,最多11项)。

在随机缺失(MAR)情况下,10项研究被标记为观察性研究,10项为随机化研究。每项观察性研究平均有30%的概率被选中而不具有按组随访数据,而每项随机化研究平均有5%的概率被选中而不具有按组随访数据。在1000次模拟中,平均有0.5项随机化研究缺失按组随访数据(最少0项,最多5项),平均有三项观察性研究缺失按组随访数据(最少0项,最多10项)。

第 i 项研究的完整数据包括Yi1、Yi0、ni1= ni0、 ̄ei1、 ̄ei0。对于MCAR,Pr(̄eij缺失)= Pr(̄ eij ∣̄eij,nij,Yij)= 0.175。对于MAR,令Xi为指示变量,表示第 i 项研究是否为观察性研究。则Pr(̄eij缺失 ∣ Xi)= Pr(̄eij ∣ ̄eij,nij,Yij,Xi),且Pr(̄eij缺失 ∣ Xi= 1)= 0.3,Pr(̄eij缺失∣Xi= 0)= 0.05,因此缺失按组随访数据的概率取决于研究是观察性还是随机化的,但在同一研究类型内,缺失按组随访数据的概率不依赖于按组随访时间的长短。

对于随机试验,我们始终假设治疗组的随访更为极端,即 f相较于可比的观察性研究更偏离零效应。如果 f< 1,f RCT= 3 4f OBS且如果 f> 1,f RCT= 4 3f OBS,因此,可比的观察性研究将始终被假定具有随访

版权所有 © 2015 John Wiley & Sons, Ltd. 统计医学 2015,34 2913–2925

L. M. 昆兹, S.‐L. T. 诺曼德 和 A. 塞德拉基扬

在观察性研究中,两个研究组之间的失衡程度比随机化试验更高。数据生成后反映了这一点,然后使用之前描述的相同完全贝叶斯泊松模型在WinBUGS中拟合模型。当模拟实验报告了按研究组的随访信息时,使用了该信息;当无法获得按组随访的信息时,则使用了研究的平均随访时间。

通常情况下,使用部分观察到的随访时间对率比产生的偏倚介于主要研究中具有完整按组随访的正确情况与具有不完整按组随访的错误情况之间(表A.I)。在随机缺失和完全随机缺失两种情况下,率比的覆盖率相似。当f偏离1.0时,无论在MAR还是MCAR下,相对风险(RR)的偏倚和覆盖率都会变差,且当 σ2较大时这种趋势更为明显(图2)。 σ的偏倚和覆盖率并未呈现与f相关 的趋势,且在两种缺失类型下仍然相似(表A.I)。

数据分析:除颤器功能与心脏再同步治疗的有效性比较

我们使用公式(5)–(6)中描述的模型分析了表I中报告的死亡率数据。由于该分析涉及的研究数量较少,我们共考虑了九组不同的先验分布,用于 μ(总体对数率比)和 σ(研究间标准差),这些先验分布在信息量上有所不同。模型通过WinBUGS软件进行估计,并根据研究间标准差成分的Geweke分数判断收敛后停止运行。所有主要研究的全因死亡率平均值为每1000人‐月 8.83例死亡(CRT‐D组的死亡率为每1000人‐月7.37例死亡,单独CRT组的死亡率为每1000人‐ 月10.63例死亡)。八项研究中有七项显示CRT‐D优于单独CRT,其率比小于1。

八项研究中仅有三项报告了按组随访,其f=0.72[13], 0.95[10],和0.97[15]。我们采用两种主要方法估计总体率比:第一种方法中,当有可用的按组特定的随访信息时使用该信息,否则使用研究平均值(如第2节所述);第二种方法中,忽略任何按组特定的随访信息,仅使用研究平均随访。此外,我们进行了一些敏感性分析,以探讨在两组之间不同随访比例下估计值的变化程度。

先验分布

我们假设总体对数率比来自一个以零值0为中心的正态分布(即率比为1.0)。我们为 μ(总体对数率比)选择了三种不同的方差:(1)方差为2,得到的95%区间为 −2.77到2.77(在率比尺度上为0.063至15.96),该先验较为模糊;(2)方差为10,表示对数率比的95%区间可能在−6.2到6.2之间,更为模糊;(3)方差为1,000,000,极为模糊。

选择了三种不同的研究间标准差的先验分布。两种半正态分布允许研究的潜在对数率比: (1)中位数值为0.39,95%分位数为1.0(半正态分布(0.26));(2)中位数值为0.14,95%分位数为0.36(半正态分布(0.03))。一种均匀分布(均匀(0,0.7))的均值和中位数均为0.35。

结果

当使用按组特定的随访信息(来自提供该信息的八项研究中的三项)时,在最无信息量的一对先验分布 μ ∼正态分布(0,1e06)和 σ ∼半正态分布(0.26),以及最有信息量的一对先验分布 μ ∼正态分布(0,2)和 σ ∼半正态分布(0.03)下,总体率比的后验均值(95%可信区间)分别为0.71(0.49, 0.96)和0.71(0.55, 0.89)。这些结果表明,与单独CRT相比,CRT‐D具有生存获益,即 CRT‐D组的死亡率大约降低了30%(图3(a))。研究间标准差的后验均值估计为0.34(0.08, 0.75) (图3(b))。所有其他先验分布均得到相似的总体率比结果。在任何先验分布下,95%可信区间均未包含1(表III)。使用半正态分布(0.03)作为 σ的先验分布时,可信区间更短(图3)。

结果相似,但在忽略三项研究中按组别特定的随访信息时,总体率比(exp(μ))与零效应的偏离更大,其后验均值为0.69(更多结果见附录)。当模拟研究中f< 1时(如CRT‐D与 CRT的荟萃分析),研究结果表明,忽略按组别特定信息的估计值将比零效应更远

表III 除颤器功能与单独心脏再同步治疗:在多种可用的先验分布下,利用按组随访数据得出的八个主要研究的总体率比的后验均值及95% 可信区间。
先验分布 总体潜在对数率比的先验分布, μ 研究间标准差, σ 正常(0, 2)正常(0, 10)正常(0, 1e06)
半正态(0.03)a 0.71 (0.55, 0.89) 0.71(0.56,0.90) 0.71 (0.55, 0.89) Uniform(0, 0.7) b 0.71(0.49,0.99) 0.71(0.51,0.96) 0.72(0.52,0.98) Half‐normal(0.26) c 0.70 (0.50, 0.94) 0.71 (0.51, 0.94) 0.71(0.49,0.96)

aE(σ)= 0.14. bE(σ)= 0.35. cE(σ)= 0.41.

使用按组随访的估计。考虑到八项研究中仅有三项报告了按组随访,我们的两个后验均值(0.69 和 0.71)没有差异并不奇怪。

此外,我们进行了一些敏感性分析,以观察在两个治疗组之间不同随访比例下估计值的变化程度。第一种情景针对八项研究中的三项分别报告了各组随访情况的研究使用了按组别划分的随访数据,而对于未单独报告的研究,我们假设̄f ≈ 0.9。总体率比的结果为0.76(0.56, 1.00)。在原始分析中,对于八项研究中的三项使用可用的组别特异性随访比例,其余则使用平均值,f= 1,结果为0.71(0.49, 0.96)。当所有研究现在都采用f< 1时,我们可能高估了真实RR。使用更极端的f = 0.722(即在八项研究中观察到的最极端值),RR为0.86(0.64, 1.14),因此更接近零效应。

备注

我们探讨了在荟萃分析中,两个治疗组之间缺失的随访持续时间对总体均值推断的影响。尽管事件可能在随访期间的任何时间点发生,且删失也贯穿整个期间,但大多数应用研究人员仍继续使用比值比,并假设各治疗组之间的随访相似。在观察性研究中,治疗组间的随访相等不太可能成立。在单个研究情境下,例如当治疗组具有更长的随访时,f> 1,错误估计量会低估真实率比;而当f< 1时,则高估真实率比。当f ≠ 1时,相对于正确估计量,均方误差更大,且覆盖率较差。即使随访持续时间存在相对较小的差异,推断也会受到影响;例如,当f= 0.8且零效应为真实情况时,95%区间的覆盖率下降至0.71,偏倚接近20%,意味着估计的率比为 0.8。

版权所有 © 2015 John Wiley & Sons, Ltd. 统计医学 2015,34 2913–2925

L. M. 昆兹,S.‐L. T. 诺曼德 和 A. 塞德拉基扬

我们利用分层泊松回归模型来合并各研究中的率比,并通过模拟研究考察了在不同条件下后验均值的操作特性。虽然无法确定偏倚的方向,但在无真实效应时,使用平均随访会导致更大的偏倚和更差的覆盖率——而纳入可用的按组别特定信息相较于不纳入任何此类信息可减少偏倚。然而,除非报告更多关于按组随访持续时间的信息,否则无法纠正该偏倚。分析中可以对f在1周围设定一个对称先验概率分布,即使这种不确定性较为模糊。例如,我们提出对f的自然对数设定先验分布为 log(f) ∼N(0, σf)。当有相对较多的研究可用时,该方法可能是合理的;但在我们的示例中仅包含八项研究,且相对于参数数量而言观察到的信息量较少,因此该方法的合理性存疑。

Bushman和Wang [19]提出了当某些研究未报告效应估计值时,结合效应的方法,该方法混合使用了已报告的效应估计值和投票计数程序。投票计数程序要求各研究之间的效应具有一致性,这一假设在实际中很可能不成立。在分析CRT与CRT‐D的研究时,研究内和研究间的随访持续时间存在显著差异,且大多数研究未报告持续时间信息。如果各组之间的随访时间存在差异,则我们的估计可能会高估或低估真实率比,且无法判断其偏向方向。

在本文中,我们假设风险比是恒定的,这充其量是一个较强的假设。其他研究人员[20]已警告不要使用单一数值来总结风险比,因为风险比依赖于随访持续时间,并且与特定时期的风险比存在固有偏倚(例如,受试者必须存活到每个特定时期区间才能被纳入该时期的计算)。鉴于这些担忧,如果主要研究未报告按组随访持续时间,我们预计在估计特定时期风险时也会出现类似的偏倚。为彻底避免偏倚问题,理想的做法是让主要研究使用离散时间风险来总结校正生存曲线,其中将随访时间作为与治疗组交互的解释变量。未来,随着应用研究人员越来越多地整合多项研究的信息以了解治疗和安全性效果,发表的研究应包含按组随访持续时间的信息。网络meta分析可能更容易受到差异随访持续时间问题的影响,因为在这些分析中,所比较的治疗方法数量和研究类型数量都较大。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值