40、逻辑回归与儿童白血病持续缓解预测

逻辑回归与儿童白血病持续缓解预测

1. 逻辑回归中的估计方法

1.1 完全或准完全分离的检测

在逻辑回归中,标准误差变得更合理时,对于单个协变量 X,可通过对其值排序并与 Y 值比较,轻松检测完全或准完全分离。若有多个协变量,可使用 Santner 和 Duffy 提出的算法来确定最大似然估计是否存在。在实际数据集中,完全或准完全分离并不常见,因为其出现几乎只要求二分协变量。但在小样本或稀疏数据集的回归中估计多个参数时,分离出现的概率不可忽略。

对于二分协变量,可通过分析相应的列联表来检测分离。以神经生理学为例,我们想确定运动神经元影响下肌梭放电的预测因素。感兴趣的协变量包含在求和与恢复函数中,可通过逻辑回归模型同时研究这些协变量对系统放电的影响。在α运动神经元数据集的情况下,常用软件包大多失败,因为最大似然估计不存在。这是因为协变量 Xt - 13 取值为 1 的所有观测都出现在输出尖峰缺失(Y = 0)时,列联表中 Xt - 13 = 1 且 Y = 1 的单元格为空,单个频率为零的单元格表明存在准完全分离,这会导致最大似然估计出现问题,出现极端估计值和非常大的标准误差。

1.2 精确逻辑回归

精确逻辑回归由 Cox 于 1970 年提出,其参数估计基于消除似然函数中剩余的参数,并以其充分统计量为条件。似然函数可表示为:
[P(Y_1 = y_1, Y_2 = y_2, \ldots, Y_n = y_n) = \frac{\exp(\sum_{s = 0}^{p} \beta_s t_s)}{\prod_{i = 1}^{n} (1 + \exp(x_i \beta))}]
其中
[t_s = \sum_{i = 1}^{n} x_{is} y_i]
是随机变量 (T_s = \sum x_{is} Y_i) 的观测值。充分统计量 (t_0, t_1, \ldots, t_p) 是由 n 行 (x_i) 组成的矩阵各列的小计,求和元素对应成功发生的行。

假设我们对某个回归参数感兴趣,将其余参数视为干扰项。不失一般性,选择感兴趣的参数为 (\beta_p),则 (T_p) 在 (T_0 = t_0, T_1 = t_1, \ldots, T_{p - 1} = t_{p - 1}) 条件下的条件分布为:
[P(T_p = t_p | T_0 = t_0, T_1 = t_1, \ldots, T_{p - 1} = t_{p - 1}) = \frac{P(T_0 = t_0, T_1 = t_1, \ldots, T_p = t_p)}{P(T_0 = t_0, T_1 = t_1, \ldots, T_{p - 1} = t_{p - 1})}]
条件似然为:
[f(t_p | \beta_p) = \frac{c(t_0, t_1, \ldots, t_p) \exp(\beta_p t_p)}{\sum_{u} c(t_0, t_1, \ldots, t_{p - 1}, u) \exp(\beta_p u)}]
其中分母求和是对所有 (c(t_0, t_1, \ldots, t_{p - 1}, u) \geq 1) 的 u 值进行。(\beta_p) 的条件最大似然估计(CMLE)通过最大化上述条件似然得到。若 (t_p = t_{min}) 或 (t_p = t_{max})((t_{min}) 和 (t_{max}) 分别是 (t_p) 的最小和最大可能值),则 CMLE 未定义,此时可得到中位数无偏估计(MUE),MUE 始终有定义,且满足 (f(t_p | \beta_p) = 0.5)。

1.3 精确逻辑回归的优缺点

精确逻辑回归的优点在于,在小样本或稀疏数据集出现完全或准完全分离问题时,它能找到估计值。而最大似然法中,对数似然会随着系数取值增大而单调增加,导致方法不收敛。精确逻辑回归中充分统计量的分布存在,可得到 MUE 的精确置信区间和精确 p 值。当样本量增大或数据变得不那么稀疏时,渐近结果会收敛到精确结果。

然而,当其余协变量为连续变量时,精确逻辑回归存在缺点。此时充分统计量的条件分布可能退化为单个值,无法进行推断。但这种情况不常出现,可通过对一个或多个连续协变量进行离散化来避免。

1.4 数值方面

最大似然估计广泛应用,因为可通过最大化似然函数轻松数值获得模型系数的估计值,相关算法易于实现,且在所有统计软件包(如 Genstat、SAS)中都可用。但当出现上述问题时,估计值要么不收敛,要么达到极限,可通过未知参数的膨胀估计值和标准误差来识别这种情况。

精确逻辑回归需要枚举满足观测数据特定标准的二项响应向量(y 向量)的所有可能排列,这些 y 向量的集合称为“参考集”。逻辑回归模型中每增加一个解释变量,就会对参考集施加一个额外约束。生成和存储参考集的 y 向量会消耗大量内存和计算时间。最初 Cox 提出的精确逻辑回归理论多年来被认为计算不可行,直到 Tritchler 和 Hirji 等人提出快速算法方法。

精确逻辑回归在 LogXact 程序包中实现,该软件包专门用于精确方法,最多接受 30 个协变量进行精确推断,但处理这么多协变量的问题不太可能成功。解决问题的难度取决于数据的多个特征,如响应数量、组间不平衡以及连续变量值之间的间距。

1.5 神经生理学示例 - 伽马运动神经元

在伽马运动神经元的情况下,最大似然估计结果显示,求和函数的估计系数在 11 - 30 ms 区间为正且远离零,这意味着协变量 (X_{t - 11}, \ldots, X_{t - 30}) 可被视为风险因素,因为它们显著增加了输出尖峰的发生几率。求和函数的整体行为是兴奋性的,即伽马运动神经元的输入尖峰加速了系统的放电。恢复函数由二阶多项式描述,由于 (\hat{\gamma}_i)((i \geq 3))在统计上不显著,其形式表明系统没有自发活动,因为它不穿过估计的阈值水平,所以恢复函数不能被视为显著的风险因素。

1.6 神经生理学示例 - 阿尔法运动神经元

对伽马和阿尔法运动神经元数据集的初步比较表明,阿尔法运动神经元的输入和输出尖峰间隔不那么频繁,若存在则更大,这初步表明该数据集是稀疏的。处理此问题的第一步是使用 3 ms 的采样间隔对数据集进行重采样,而不是最初使用的 1 ms。重采样后,最大似然估计在阿尔法运动神经元数据集上完全失败,估计值达到极限,表明可能需要一个或多个参数为无穷大才能使似然最大化。

此时可采用精确逻辑回归,但逻辑模型涉及太多参数和大量观测值,给精确逻辑回归的实现带来严重计算问题。可通过省略逻辑回归模型中求和函数的一些协变量来减少参数数量,对三个几乎等长的非重叠子集应用精确逻辑回归可显著减小样本空间大小。

阿尔法运动神经元的渐近和精确结果显示,估计系数 (a_{13}, a_{19}, \ldots, a_{37}) 的最大似然估计值和标准误差比其他系数大得多,这突出了求和函数中的问题区域。这是因为相应列联表中存在零频率单元格,如 (X_{t - 13}) 与 Y 的列联表,所有响应 Y 的观测都聚集在协变量 (X_{t - 13}) 的极端 0 水平,导致最大似然方法发散。而精确逻辑回归得到的估计值似乎更合理,有问题的估计值的下置信界为 - 1,表明数据集包含样本空间极端点的观测值。

精确逻辑回归得到的阈值、恢复和求和函数的估计结果显示,求和函数的估计系数在前 10 ms 为正,协变量 (X_{t - 7}) 显著增加了系统放电的概率,但在 11 - 50 ms 区间,放电概率降低,这意味着潜在风险因素 (X_{t - 13}, \ldots, X_{t - 43}) 降低了输出尖峰的几率,求和函数在该区域的行为是抑制性的,即阿尔法运动神经元的输入尖峰在 11 - 50 ms 区间阻止了系统的响应。恢复函数由一阶多项式表示,估计系数 (\gamma_1) 的优势比为 1.1036,95% 置信区间为 (1.0647, 1.1439),阈值和恢复函数的图示显示恢复有增加趋势,且趋于穿过阈值水平,这表明系统可能有潜在的自发活动。

以下是阿尔法运动神经元的相关列联表:
| 协变量 | Y = 0 | Y = 1 |
| ---- | ---- | ---- |
| (X_{t - 7}) | 4738 | 295 |
| | 196 | 61 |
| (X_{t - 13}) | 4677 | 356 |
| | 257 | 0 |
| (X_{t - 43}) | 4679 | 354 |
| | 255 | 2 |

以下是阿尔法运动神经元 MLE 和 ELR 结果表:
| 逻辑回归系数 | 最大似然估计 | SE | CMLE 或 MUE | SE | 95% 精确 CI 下限 | 95% 精确 CI 上限 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| (\gamma_0) | 3.4186 | 0.1307 | 3.4493 (CMLE) | 0.2297 | 2.9905 | 3.9435 |
| (\gamma_1) | 0.0967 | 0.0105 | 0.0986 (CMLE) | 0.0183 | 0.0629 | 0.1351 |
| (a_1) | 0.2168 | 0.2447 | 0.2134 (CMLE) | 0.4238 | - 0.7897 | 1.0618 |
| (a_7) | 1.7565 | 0.1722 | 1.7414 (CMLE) | 0.2994 | 1.0975 | 2.3617 |
| (a_{13}) | - 7.7503 | 6.6326 | - 2.2142 (MUE) | NA | - 1 | - 0.4818 |
| (a_{19}) | - 7.8191 | 6.7208 | - 2.2480 (MUE) | NA | - 1 | - 0.5272 |
| (a_{25}) | - 8.1085 | 6.6810 | - 2.5503 (MUE) | NA | - 1 | - 0.8199 |
| (a_{31}) | - 8.1542 | 6.7425 | - 2.5838 (MUE) | NA | - 1 | - 0.8594 |
| (a_{37}) | - 8.2998 | 6.6745 | - 2.7224 (MUE) | NA | - 1 | - 0.9879 |
| (a_{43}) | - 2.7278 | 0.7167 | - 2.4404 (MUE) | NA | - 1 | - 0.6608 |
| (a_{49}) | - 0.3193 | 0.2464 | - 0.3413 (CMLE) | 0.4330 | - 1.3670 | 0.5291 |

下面是处理阿尔法运动神经元数据集问题的流程图:

graph TD;
    A[获取阿尔法运动神经元数据集] --> B[初步分析,发现数据稀疏];
    B --> C[重采样数据集,使用3ms采样间隔];
    C --> D[尝试最大似然估计,失败];
    D --> E[决定使用精确逻辑回归];
    E --> F[减少参数数量,省略部分协变量];
    F --> G[对三个非重叠子集应用精确逻辑回归];
    G --> H[得到合理估计结果];

2. 儿童白血病持续缓解预测

2.1 儿童白血病概述

白血病是儿童最常见的恶性疾病,占 15 岁以下所有癌症病例的约 35%。约 80% 的儿童白血病是急性淋巴细胞白血病(ALL),源于淋巴系的未成熟细胞。超过 95% 的 ALL 儿童通过初始化疗获得缓解,约 70% 在治疗后治愈。另一种白血病,急性髓系白血病(AML),不如 ALL 常见,但更难治疗,源于髓系。

白血病细胞在骨髓中增殖,减缓正常血细胞的产生,因此急性白血病患者常有红细胞和血小板数量低的情况。ALL 的一些常见症状包括发热、疲劳、感染、面色苍白、出血、瘀伤、瘀点或骨与关节疼痛。白血病发作时的症状常与普通病毒感染相似。异常细胞可聚集在中枢神经系统(CNS)和睾丸,这些部位是白血病细胞的“避难所”,使抗肿瘤药物治疗变得困难。

2.2 儿童白血病的风险因素与预后因素

2.2.1 风险因素

已知 ALL 的风险因素包括性别(男性)、年龄(2 - 5 岁)、种族(白人)、电离辐射(宫内)、产后治疗性电离辐射以及一些遗传综合征(如唐氏综合征、布卢姆综合征)。其他因素如高出生体重(超过 4000 克)、母亲年龄(超过 35 岁)、头胎或独生子女、母亲孕前和孕期吸烟、产后使用氯霉素、暴露于电磁场等。父母职业暴露于有害物质也被怀疑是 ALL 的风险因素。

2.2.2 预后因素

ALL 诊断时的白细胞计数(WBCs)是该疾病重要且独立的预后因素。其他根据白血病类型指示预后好坏的特征包括年龄、淋巴结肿大区域、细胞免疫表型、性别、细胞遗传学异常、某些细胞表面抗原的存在(如 CD10 或 CD34)、对类固醇治疗的反应、纵隔或 CNS 中白血病浸润的存在、淋巴结肿大、非髓系定位和血红蛋白浓度等。一些特征被用于构建预后评分,影响治疗方案的选择,如 NOPHO 组评分或 BFM 风险评分。

2.3 统计方法在儿童白血病预后评估中的应用

2.3.1 常用统计方法

对上述特征预后重要性的评估更多基于一维统计分析(即逐个变量分析),而不是多元统计方法,尽管作者常强调多元分析的重要性。最常用于分析预后因素的统计程序是 Cox 比例风险回归。

2.3.2 多元方法的应用

多元方法更多用于识别儿童 AML 的预测特征。例如,血管内皮生长因子分泌和年龄、年龄大于等于 8 岁、WBC 计数大于等于 10×10⁹ 细胞/升、诊断时血小板计数高、无肝肿大以及骨髓原始细胞小于 30% 等。

2.4 不同类型白血病的预后预测因素总结

白血病类型 重要预后因素
ALL 白细胞计数、年龄、淋巴结情况、免疫表型、性别、细胞遗传学异常、细胞表面抗原、类固醇治疗反应、浸润情况、血红蛋白浓度等
AML 血管内皮生长因子分泌、年龄、白细胞计数、血小板计数、肝肿大情况、骨髓原始细胞比例等

2.5 预测儿童白血病持续缓解的流程

graph TD;
    A[收集儿童白血病患者数据] --> B[确定可能的预后因素];
    B --> C[选择合适的统计方法(如逻辑回归、判别分析、分类树)];
    C --> D[构建预测模型];
    D --> E[模型评估与验证];
    E --> F[若模型效果不佳,调整模型或更换方法];
    F --> D;
    E --> G[若模型效果好,用于预测儿童白血病持续缓解];

2.6 总结与展望

逻辑回归在处理小样本或稀疏数据集时,精确逻辑回归能有效解决最大似然估计不收敛的问题,为风险因素评估提供更可靠的结果。在儿童白血病持续缓解预测中,综合考虑多种预后因素,运用合适的统计方法构建预测模型,有助于提高预测的准确性,为临床治疗方案的选择提供依据。未来,随着数据量的增加和统计方法的不断发展,有望进一步优化预测模型,更好地服务于儿童白血病的治疗和管理。

以下是一个简单的步骤列表,概括了从数据处理到预测儿童白血病持续缓解的过程:
1. 收集儿童白血病患者的相关数据,包括各种预后因素信息。
2. 对数据进行初步分析,判断是否存在数据稀疏等问题。
3. 若使用逻辑回归,根据数据情况选择最大似然估计或精确逻辑回归。
4. 确定可能影响持续缓解的预后因素,构建预测模型。
5. 对模型进行评估和验证,根据评估结果调整模型。
6. 使用验证后的模型预测儿童白血病的持续缓解情况。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值