统计分析方法的比例风险回归与综合应用
1. 比例风险回归在SAS中的应用
比例风险回归是一种重要的统计方法,可用于分析生存数据等。其中,在SAS中使用
phreg
过程进行比例风险回归分析时,其语法与
lifetest
类似。以下是一个分析急性髓系白血病(AML)数据的示例代码:
proc phreg;
model surv * cens(0) = group;
output out=diags xbeta=xb resmart=mart resdev=dev;
run;
在这个代码中,
surv
是生存时间变量,
cens
是删失指示变量,
group
是治疗组的指示变量。
分析AML数据的最大似然估计输出如下表所示:
| Variable | Estimate | Standard Error | Chi - Square | Pr > ChiSq | Hazard Ratio |
| — | — | — | — | — | — |
| group | -0.90422 | 0.51225 | 3.1159 | 0.0775 | 0.405 |
从输出结果来看,估计的回归系数为负,这表明
group = 1
的患者复发时间更长。危险比(Hazard Ratio)通过
exp(−0.90422) = 0.405
计算得出,意味着
group = 1
的患者的危险是
group = 0
患者的0.405倍,较低的危险与较长的复发时间相关。
此外,
proc phreg
还提供了两种残差:鞅残差(Martingale residual)和偏差残差(Deviance residual)。通常会将这些残差与线性预测器
xbeta
进行绘图。在AML数据中,由于只有一个解释变量(治疗组)且为二元变量,线性预测器只有两个不同的值,绘图时需要进行抖动处理以便观察。通过观察图中的残差图,没有发现极端残差,说明比例风险回归在这个案例中的应用是合理的。
比例风险回归的一个重要诊断条件是不同组的生存曲线不交叉。如果一组的危险率始终较高,那么其生存率将始终较低。若生存曲线交叉,比例风险回归可能无法有效检测到差异。
2. 相关练习及数据探讨
2.1 大比目鱼生存数据
大比目鱼是一种受渔民喜爱的大型美味鱼类。为了防止其种群枯竭,对大比目鱼的捕捞进行了严格监管,并对其生存情况进行了详细研究。大比目鱼生存数据集包含294条记录,每条记录对应一条大比目鱼的生存信息。部分数据如下表所示:
| 序号 | 生存时间(小时) | 删失指示 | 拖网时间 | 深度差(米) | 叉长(厘米) | 处理时间(分钟) | 总捕捞量对数 |
| — | — | — | — | — | — | — | — |
| 1 | 209.0 | 1 | 30 | 13 | 41 | 8 | 6.992 |
| 2 | 209.0 | 1 | 30 | 13 | 44 | 8 | 6.992 |
| 3 | 209.0 | 1 | 30 | 13 | 47 | 10 | 6.992 |
| 4 | 209.0 | 1 | 30 | 13 | 34 | 10 | 6.992 |
| 5 | 38.0 | 1 | 30 | 13 | 40 | 11 | 6.992 |
| 6 | 209.0 | 1 | 30 | 13 | 42 | 11 | 6.992 |
| 7 | 140.9 | 1 | 30 | 13 | 41 | 12 | 6.992 |
| 8 | 140.9 | 1 | 30 | 13 | 30 | 12 | 6.992 |
| 9 | 140.1 | 1 | 30 | 1 | 45 | 4 | 4.299 |
| 10 | 208.0 | 1 | 30 | 1 | 47 | 5 | 4.299 |
数据中包含的信息有:
- 生存时间(小时)
- 删失指示(1表示观察到的生存时间,0表示删失观察)
- 拖网在海底的拖行时间
- 拖行过程中观察到的最大和最小深度差(米)
- 大比目鱼的叉长(厘米)
- 网带上船到鱼放入水箱的处理时间(分钟)
- 拖网总捕捞量的自然对数
需要探讨的问题包括:是否有证据表明数据是由几次捕捞合并而成的?生存时间是针对单个大比目鱼还是一组鱼的单一值?
2.2 斯坦福心脏移植生存数据
在心脏移植的早期,进行了一项大型流行病学研究,以评估心脏移植的风险和价值。研究对象被随机分配接受移植或不接受移植,部分被分配接受移植的患者在获得供体器官之前死亡。当时,匹配分数对于确定供体和受体之间的匹配程度非常重要。该数据集有两个版本可在线获取。
研究需要探讨的问题是:是否有证据表明年龄的影响不是单调的?由于最年长的患者可能身体虚弱,无法承受重大移植手术,而最年轻的患者也较为脆弱,因此年龄的危险可能呈“U”形。
2.3 原发性胆汁性肝硬化数据
原发性胆汁性肝硬化(PBC)是一种肝脏疾病,主要影响女性,约每4000人中就有1人患病。1974年至1984年,梅奥诊所进行了一项随机临床试验,以研究药物d - 青霉胺是否有助于延长患者的生命。部分患者因治疗药物出现肝毒性,因此可以研究两个终点:出现肝毒性的时间和死亡时间,这两个时间都可以建模为“生存”时间。
临床试验中有312名患者被随机分配接受药物治疗,这些患者的数据最为完整。另外还有112例未参与试验,部分数据缺失,因此最初应集中分析参与试验的312例患者的数据。数据可在线获取,变量信息如下表所示:
| 变量 | 说明 |
| — | — |
| 病例编号 | |
| 生存天数 | |
| 状态 | 0 = 删失,1 = 因肝毒性删失,2 = 死亡 |
| 药物 | 1 = D - 青霉胺,2 = 安慰剂 |
| 年龄(天) | |
| 性别 | 0 = 男性,1 = 女性 |
| 腹水存在情况 | 0 = 无,1 = 有 |
| 肝肿大存在情况 | 0 = 无,1 = 有 |
| 蜘蛛痣存在情况 | 0 = 无,1 = 有 |
| 水肿情况 | 0 = 无水肿;0.5 = 水肿已消退;1 = 治疗后仍有水肿 |
| 血清胆红素(mg/dl) | |
| 血清胆固醇(mg/dl) | |
| 白蛋白(gm/dl) | |
| 尿铜(ug/天) | |
| 碱性磷酸酶(U/升) | |
| SGOT(U/ml) | |
| 甘油三酯(mg/dl) | |
| 血小板(每立方毫升/1000) | |
| 凝血酶原时间(秒) | |
| 组织学疾病阶段 | |
需要探讨的问题有:某些变量(如凝血酶原和磷酸酶)作为生存的解释变量具有高度显著性,这些变量更能指示疾病进展还是治疗相关结果?治疗组和安慰剂组中这些变量的值是否不同?两组的删失率是否不同?治疗组因肝毒性导致的删失是否比安慰剂组更多?可以使用逻辑回归来研究肝毒性删失是否与其他解释变量相关。药物是否有效延长了患者的生存时间?
2.4 多发性骨髓瘤数据
多发性骨髓瘤是一种骨髓免疫系统疾病,目前无法治愈,但通过多种治疗可以实现无症状生存。Krall、Uthoff和Harley(1975)报告了一项对65名接受烷基化剂治疗的患者的生存数据研究,其中48名患者在研究期间死亡,17名患者在数据分析时仍然存活。数据集的变量信息如下表所示:
| 变量 | 说明 |
| — | — |
| 生存时间(月) | |
| 删失指示 | 0 = 存活,1 = 死亡 |
| 诊断时的血尿素氮(对数尺度) | |
| 诊断时的血红蛋白 | |
| 诊断时的正常血小板情况 | 1 = 正常,0 = 异常 |
| 诊断时的年龄(岁) | |
| 诊断时的白细胞计数(对数尺度) | |
| 诊断时的骨折情况 | 0 = 无,1 = 有 |
| 骨髓中浆细胞百分比(对数尺度) | |
| 蛋白尿 | 尿液中的蛋白质 |
| 诊断时的血清钙 | |
血尿素氮(BUN)是衡量肾功能的指标,血红蛋白(HGB)是参与肺部气体交换的重要血液成分。需要使用比例风险模型分析数据,探讨的问题包括:BUN和HGB是否与其他解释变量相关?生存是整体健康状况的普遍下降还是仅由这两个指标决定?使用鞅残差发现有一个极端离群值,但在偏差残差尺度上该患者并不极端,需要确定该患者并分析其异常原因。
3. 统计方法的综合回顾
在统计研究中,选择合适的统计方法至关重要。以下是一些不同情境下的问题及需要考虑的统计方法和零假设:
| 问题 | 合适的统计方法 | 零假设 |
| — | — | — |
| 估计老年人髋关节手术后恢复正常生活活动的时间,探讨手术是择期还是因意外摔倒骨折以及其他因素(年龄、性别、医疗补助状况、是否需要家庭健康助手)的影响 | 生存分析(如比例风险回归) | 各因素对恢复时间无影响 |
| 研究甜甜圈工厂中方形孔甜甜圈的数量是否随天气变热增加,以及糖衣和釉面甜甜圈的影响 | 时间序列分析或线性回归 | 天气、糖衣和釉面等因素对方形孔甜甜圈数量无影响 |
| 研究州和联邦立法机构通过法案的时间,探讨法案类型和政党的影响 | 方差分析或回归分析 | 法案类型和政党对法案通过时间无影响 |
| 测试轮胎颜色深浅与湿路面刹车距离的关系 | 线性回归 | 轮胎颜色深浅对刹车距离无影响 |
| 探讨统计学课程成绩是否因学生年龄、性别、专业或同时修读的其他课程数量而异 | 方差分析或逻辑回归 | 各因素对成绩无影响 |
| 测试课程评估是否因必修或选修课程而异 | 卡方检验或t检验 | 课程类型对评估结果无影响 |
| 根据多年每月未调整的住房开工数量创建“季节性调整”数量 | 线性回归(使用季节指示变量) | 季节因素对住房开工数量无影响 |
| 比较两种抗生素的响应率 | 卡方检验或Fisher精确检验 | 两种抗生素的响应率无差异 |
| 研究患者处方的适当性与性别、年龄、合并症、健康保险类型等因素的关系 | 逻辑回归 | 各因素对处方适当性无影响 |
| 研究白血病患者的治疗对疾病复发时间的影响,考虑先前治疗、年龄、健康保险类型和合并症等因素 | 生存分析(如比例风险回归) | 治疗及各因素对复发时间无影响 |
| 测试康涅狄格州狂犬病病例数在过去5年是否有趋势 | 时间序列分析 | 病例数无趋势 |
| 研究老年人是否更有可能成为猫主人(年龄以25岁为界) | 卡方检验 | 年龄与是否养猫无关联 |
| 研究年龄作为连续变量时与是否养猫的关系 | 逻辑回归 | 年龄对是否养猫无影响 |
| 病例对照研究中比较病例组和对照组的烟草使用史及教育程度 | 卡方检验(烟草使用史)、t检验或非参数检验(教育程度) | 病例组和对照组在烟草使用史和教育程度上无差异 |
| 实验室研究中,表达小鼠暴露于不同剂量毒素的死亡概率的线性逻辑回归模型 | 线性逻辑回归 | 剂量对死亡概率无影响 |
4. 其他相关问题探讨
4.1 标准差与标准误差
标准差衡量数据的离散程度,反映了数据相对于均值的分散情况。标准误差衡量样本统计量(如样本均值)的抽样误差,它反映了样本统计量与总体参数之间的差异。标准差和标准误差的关系是:标准误差等于标准差除以样本量的平方根。
4.2 泊松回归中的“对数链接”
在泊松回归中,使用“对数链接”是为了确保模型预测的均值为正数。泊松分布的均值必须大于0,通过对数链接函数将线性预测器转换为均值的对数,从而保证预测的均值符合泊松分布的要求。
4.3 彩票中奖者数据模型
使用以下SAS程序拟合模型:
proc genmod data=lottery;
model winners = pop / dist=Poisson;
run;
其中
winners
是中奖者数量,
pop
是城镇人口(千)。该程序拟合的泊松均值模型为:
log(λ) = β0 + β1 * pop
,其中
λ
是泊松分布的均值。
从输出结果来看,卡方统计量为17.48对应的零假设是
pop
的回归系数为0。在当前情境下,这个测试是有用的,因为它可以检验城镇人口是否对中奖者数量有显著影响。而截距本身在这个例子中的作用相对较小,因为它只是一个常数项,不直接反映人口与中奖者数量之间的关系。
4.4 逻辑回归中的“对数几率”和“概率单位”
在逻辑回归中,“对数几率”(logit)是将事件发生的概率转换为对数尺度,通过
logit(p) = log(p / (1 - p))
计算,其中
p
是事件发生的概率。使用对数几率的原因是将概率的取值范围(0到1)转换为整个实数轴,便于进行线性建模。
“概率单位”(probit)是另一种将概率转换为线性尺度的方法,它基于标准正态分布的累积分布函数的逆函数。对数几率和概率单位的主要区别在于它们所基于的分布不同,对数几率基于逻辑分布,而概率单位基于正态分布。在实际应用中,两者都可以用于建模二分类变量,但对数几率在解释系数时更直观,因为系数可以直接解释为对数几率的变化。
对于逻辑回归模型
proc logistic; model y/n=dose / iplots influence; run;
,其中
n
是每个罐子中的甲虫数量,
y
是死亡的甲虫数量,拟合的模型为:
logit(p) = β0 + β1 * dose
,其中
p
是甲虫死亡的概率。
卡方统计量为8.95对应的零假设是
dose
的回归系数为0,即剂量对甲虫死亡概率无影响。
在分析甲虫数据的帽子矩阵对角线图时,图呈“U”形的原因可能是:在低剂量和高剂量时,数据点对模型的影响和杠杆作用较大,因为这些剂量下的响应可能与其他剂量有较大差异,而中间剂量的数据点相对较为集中,对模型的影响和杠杆作用较小。
4.5 淋巴瘤患者的删失情况
淋巴瘤患者对化疗的反应可能出现多种情况:
- 反应迅速
- 反应时间较长,在检查数据时可能未观察到反应
- 完全无反应
- 在反应前死亡
因此,在研究反应时间时,可能出现的删失情况有:
- 右删失:患者在观察期结束时仍未出现反应
- 左删失:患者在进入研究前已经出现反应
- 区间删失:知道患者在某个时间区间内出现反应,但具体时间未知
对于给定的响应时间数据(3,3 +,4,6,10 +,12 +,“+”表示删失时间),绘制Kaplan - Meier生存曲线的步骤如下:
1. 按时间排序数据。
2. 计算每个事件时间的生存概率。
3. 绘制生存曲线。
如果添加100个时间小于3周且全部删失的观察值,估计的生存曲线在早期可能会更加平缓,因为更多的删失数据会降低早期事件发生的估计概率。
在儿童发育研究中,对于6岁女孩和男孩的体重数据,若存在缺失值:
- 估计缺失体重可以使用均值插补(根据同性别儿童的平均体重)、回归插补(使用其他变量建立回归模型预测体重)等方法。
- 若记录了体重但未记录性别,可以使用逻辑回归或判别分析等方法,根据体重估计儿童的性别。
在大型癌症临床试验中,对500个基因进行分析,构建了500个2×2列联表,并计算了卡方统计量,其中23个在0.05水平上具有统计学意义。由于进行了多次检验,可能存在假阳性结果。需要进行多重比较校正(如Bonferroni校正),以控制总体的第一类错误率。
对于两组数据:
Group I: 8,12,97,103
Group II: 19,21,25,27,29,30
选择非参数检验(如Wilcoxon秩和检验)而不是t检验的原因是数据可能不满足t检验的正态性假设。Wilcoxon秩和检验的步骤如下:
1. 将两组数据合并并排序。
2. 赋予每个数据点秩次。
3. 计算两组的秩和。
4. 根据秩和进行假设检验。
中位数检验的步骤如下:
1. 计算两组数据的合并中位数。
2. 将每个数据点与中位数比较,分为大于中位数和小于中位数两组。
3. 构建2×2列联表。
4. 进行卡方检验。
对于康涅狄格州肺癌率的问题,由于纽黑文的肺癌率总是比全州高,在考虑p值时,需要注意数据的收集方式、样本量等因素。可能需要进行更深入的分析,如考虑地理因素、环境因素等,而不仅仅依赖p值。
对于起搏器电池的研究,处理不同类型数据的方法如下:
- 电池故障的数据:作为事件发生时间记录。
- 两年到期更换的数据:作为右删失数据处理。
- 仍正常工作的数据:作为右删失数据处理。
比较两种电池故障率的稳健统计方法可以使用生存分析(如比例风险回归),考虑患者年龄、性别、身体质量指数和起搏器年龄等因素,可以将这些因素作为协变量纳入模型。
对于线性回归中出现的异常情况,如在对十二个亚洲国家的人均医疗支出与国家人口进行线性回归时,包含中国数据时斜率为负,排除中国数据时斜率为正,可能是因为中国人口规模远大于其他国家,对回归结果产生了较大影响。可以通过绘制散点图来直观地观察数据分布,发现中国数据点可能是一个异常值,对回归直线的斜率产生了扭曲。
对于数据存在可能的错误(如小数点位置错误、数字颠倒)的情况,可以使用数据清洗和异常值检测方法。例如,绘制箱线图、散点图等观察数据的分布,使用统计方法(如z分数)检测异常值。对于可疑数据,可以尝试与数据提供者核实,或者使用多重插补等方法处理缺失或错误的数据。
综上所述,在进行统计分析时,需要根据数据的特点和研究问题选择合适的统计方法,并对结果进行合理的解释和验证。同时,要注意数据的质量和完整性,避免因数据问题导致错误的结论。
统计分析方法的比例风险回归与综合应用(续)
5. 更多统计分析问题的深入探讨
5.1 蜱虫数据与风险区域估计
在对蜱虫的研究中,收集了大量蜱虫及其生存环境的数据,包括环境是潮湿还是干燥、阳光充足还是阴凉、天气是下雨还是晴朗以及蜱虫是在深草中还是在树下等信息。并且在不同环境中花费的时间和精力不同,只有少量蜱虫检测出携带莱姆病。
为了向徒步旅行者提供关于危险和安全区域的建议,需要进行统计分析来估计感染蜱虫可能出现的区域。可以考虑使用泊松回归或逻辑回归方法,以下是对这两种方法的分析:
-
泊松回归
:如果将每个环境区域看作一个计数单元,记录该区域内感染蜱虫的数量,泊松回归可以很好地处理计数数据。假设感染蜱虫的数量服从泊松分布,通过建立模型可以分析不同环境因素(如湿度、光照等)对感染蜱虫数量的影响。
-
逻辑回归
:将每个蜱虫是否感染作为二分类变量,逻辑回归可以用来分析环境因素与蜱虫感染概率之间的关系。例如,湿度高的环境是否会增加蜱虫感染的概率。
以下是使用这两种方法的步骤对比:
| 方法 | 步骤 |
| — | — |
| 泊松回归 | 1. 确定响应变量为每个区域感染蜱虫的数量。
2. 选择环境因素作为解释变量。
3. 建立泊松回归模型,估计参数。
4. 检验模型的拟合优度和解释变量的显著性。 |
| 逻辑回归 | 1. 确定响应变量为蜱虫是否感染(0 或 1)。
2. 选择环境因素作为解释变量。
3. 建立逻辑回归模型,估计参数。
4. 计算预测概率,并根据概率判断感染风险。 |
5.2 家庭流感症状数据的分析
在对家庭流感症状的研究中,记录了每个家庭中报告流感症状的儿童数量、家中吸烟的成年人数量、家中湿度水平以及房屋的年龄。可以考虑将每个家庭看作一个独立的二项分布样本,其中$N$为家庭中儿童的数量,响应变量为有症状的儿童数量。
以下是判断是否可以这样处理的流程:
graph TD;
A[数据收集] --> B[检查家庭独立性];
B --> C{家庭独立性是否满足};
C -- 是 --> D[检查儿童感染独立性];
C -- 否 --> E[不能将家庭看作独立二项样本];
D --> F{儿童感染是否独立};
F -- 是 --> G[满足二项分布条件];
F -- 否 --> E;
如果满足家庭之间相互独立且每个儿童感染流感的事件相互独立的条件,就可以使用二项分布模型来分析数据,例如使用逻辑回归来研究吸烟、湿度和房屋年龄等因素对儿童感染流感概率的影响。
5.3 生存曲线比较问题
当比较两条生存曲线时,一条曲线最终下降到零,而另一条曲线在未达到零之前停止。这可能有以下几种原因:
-
删失情况不同
:停止的曲线可能存在较多的删失数据,导致在观察期结束时仍有部分个体未发生事件,从而曲线未下降到零。
-
样本特征差异
:两条曲线对应的样本可能具有不同的特征,例如一组患者的病情较轻,生存时间较长,而另一组病情较重,部分患者在观察期内死亡,曲线下降到零。
5.4 亚洲国家健康支出与人口的回归问题
在对十二个亚洲国家的人均医疗支出($Y$)与国家人口($X$)进行线性回归时,包含中国数据时斜率为负,排除中国数据时斜率为正。这是因为中国人口规模远大于其他国家,是一个异常值,对回归直线的斜率产生了较大影响。
以下是对这种情况的直观解释:
graph LR;
A[包含中国数据] --> B[中国人口大影响回归直线];
B --> C[斜率为负];
D[排除中国数据] --> E[回归直线不受中国影响];
E --> F[斜率为正];
可以通过绘制散点图来观察数据分布,发现中国数据点偏离其他数据点较远,对回归结果产生了扭曲。在这种情况下,可以考虑进行数据变换(如对数变换)或使用稳健回归方法来减少异常值的影响。
6. 数据质量与异常值处理
在统计分析中,数据质量至关重要。如果数据存在可能的错误,如小数点位置错误、数字颠倒等,需要进行数据清洗和异常值检测。以下是一些常用的方法:
-
可视化方法
:绘制箱线图、散点图等可以直观地观察数据的分布,发现异常值。例如,箱线图中的离群点可能是异常值。
-
统计方法
:使用$z$分数可以检测数据点是否偏离均值过大。一般来说,$z$分数的绝对值大于 3 的数据点可以被视为异常值。
-
多重插补
:对于缺失或错误的数据,可以使用多重插补方法,通过多次模拟缺失值的可能取值,提高估计的准确性。
以下是处理数据质量问题的步骤:
1.
数据可视化
:绘制各种图形,观察数据的分布和异常情况。
2.
异常值检测
:使用统计方法检测异常值,并标记出来。
3.
数据核实
:对于可疑数据,尝试与数据提供者核实,确认数据的准确性。
4.
数据处理
:根据核实结果,对异常值进行处理,如删除、修正或插补。
7. 总结与建议
在统计分析中,选择合适的统计方法是关键。需要根据数据的特点(如数据类型、分布情况)和研究问题的性质(如比较、预测、关联分析等)来选择最适合的方法。同时,要注意数据的质量和完整性,避免因数据问题导致错误的结论。
以下是一些选择统计方法的建议:
| 数据类型 | 研究问题 | 推荐方法 |
| — | — | — |
| 生存数据 | 分析因素对生存时间的影响 | 比例风险回归 |
| 计数数据 | 分析因素对计数的影响 | 泊松回归 |
| 二分类数据 | 分析因素对事件发生概率的影响 | 逻辑回归 |
| 连续数据 | 比较两组或多组的均值 | t 检验、方差分析 |
| 非正态连续数据 | 比较两组或多组 | 非参数检验(如 Wilcoxon 秩和检验) |
在进行数据分析时,还需要对结果进行合理的解释和验证。例如,在进行多重比较时,要进行校正以控制第一类错误率;对于有统计学意义的结果,要结合实际情况进行解释,避免过度解读。同时,要不断学习和掌握新的统计方法和技术,以应对日益复杂的数据分析需求。
超级会员免费看
1866

被折叠的 条评论
为什么被折叠?



