41、儿童白血病持续缓解预测研究

儿童白血病持续缓解预测研究

1. 研究背景与目标

儿童急性淋巴细胞白血病(ALL)的治疗结果预测对于医生制定治疗方案和评估预后至关重要。本研究旨在运用多元统计方法,辅助医生进行预后估计,具体目标是通过不同的多元统计手段,挑选出对儿童ALL治疗结果最具预测性的变量,并比较逻辑回归、判别分析和分类树等方法在预测儿童白血病持续缓解方面的效率和实用性。

2. 研究对象

数据来源于比得哥什的卢德维克·里迪吉尔医科大学儿科血液学和肿瘤学诊所,涉及114名新诊断的白血病儿童(43名女孩和71名男孩),年龄在6个月至15.5岁之间。
- BFM风险分组(33名患者) :分为标准风险(SR)和高风险(HR)两组。SR组治疗包括类固醇前期(泼尼松 - PRED)和甲氨蝶呤(MTX)鞘内注射,缓解诱导第一阶段使用PRED、长春新碱(VCR)、柔红霉素(DAUNO)和L - 天冬酰胺酶(L - Asp),后续应用6 - 巯基嘌呤(6 - MP)、环磷酰胺(CTX)和阿糖胞苷(ARA - C),中枢神经系统(CNS)预防采用MTX鞘内注射和CNS照射。HR组除上述治疗外,还进行了额外的再诱导治疗,使用地塞米松(DEXA)、VCR、阿霉素(ADR)、L - Asp、CTX、硫鸟嘌呤(6 - TG)和ARA - C。随访时间为0至3121天(中位数 = 1154天),无事件生存期(EFS)为0至3088天(中位数 = 935天),8年后EFS率为0.51。
- NOPHO风险分组(81名患者) :分为标准风险(SR)、中间风险(IR)和高风险(HR)三组。SR组使用PRED、VCR、ADR和L - Asp治疗,巩固期给予中位剂量的MTX(MD - MTX),CNS预防采用MTX鞘内注射。IR组治疗与SR组类似,但用DAUNO代替ADR,诱导期延长,使用四系列ARA - C和两剂MTX鞘内注射,巩固期使用4剂0.5 g/m²/天的MTX,同时使用CNS照射。HR组使用PRED、DEXA、CTX、替尼泊苷(VM - 26)、ARA - C和MTX鞘内注射,CNS照射强度更高(可达24 Gy),IR和HR组治疗时间最长为2年。观察时间为4至7052天(中位数 = 3428天),EFS为0至7015天(中位数 = 2221天),8年后EFS率为0.5。

研究考虑了21个预测变量,具体信息如下表所示:
| No. | Feature | Explanation | No. of reported values |
| — | — | — | — |
| 1 | SEX | 性别(0 = 女性;1 = 男性) | 114 |
| 2 | AGE | 年龄 | 114 |
| 3 | NODES | 肿大淋巴结的最大尺寸(cm) | 114 |
| 4 | HEPAR | 肝肿大(肋下cm) | 114 |
| 5 | SPLEEN | 脾肿大(肋下cm) | 114 |
| 6 | MEDIASTIN | 纵隔白血病浸润情况(0 = 无;1 = 有) | 111 |
| 7 | CNS | 中枢神经系统白血病浸润情况(0 = 无;1 = 有) | 103 |
| 8 | HB | 血红蛋白浓度 | 114 |
| 9 | LEUKOC | 白细胞计数 | 114 |
| 10 | BLASTS | 未成熟白细胞(原始细胞)计数 | 114 |
| 11 | PLT
| 血小板/血栓细胞计数 | 114 |
| 12 | GR BLOOD | 血型(1, O⁺;2, O⁻;3, A⁺;4, A⁻;5, B⁺;6, B⁻;7, AB⁺, 8, AB⁻) | 114 |
| 13 | RF | 风险评分 [0.2 log(原始细胞计数) + 0.06(肝肋下部分cm) + 0.04(脾肋下部分cm)] | 114 |
| 14 | BFMGR | BFM风险组(SR = 1; HR = 0; 基于白细胞、纵隔、CNS和淋巴结浸润、年龄评分) | 114 |
| 15 | NOPHOGR | NOPHO风险组(SR = 1; IR = 2; HR = 3; 基于白细胞、纵隔和CNS浸润、年龄和白血病表型评分) | 114 |
| 16 | STERID | 诱导期类固醇治疗反应(1 = 良好;0 = 不良) | 114 |
| 17 | TIMETOREM
| 达到缓解的时间 | 114 |
| 18 | FAB | FAB型白血病细胞(1 = L1; 2 = L2; 3 = L3) | 68 |
| 19 | PHENOT | 白血病细胞表型(1 = T; 2 = B; 3 = 非T非B) | 57 |
| 20 | CD10* | 白血病细胞上CD10抗原的存在情况(1 = 有;2 = 无) | 54 |
| 21 | MYELO14 | 治疗第14天的骨髓象(1 = M1; 2 = M2; 3 = M3) | 55 |

研究中,若儿童在观察期结束时达到完全缓解(无复发且无死亡),则治疗结果被定义为“良好”,其他情况定义为“不良”。同时考虑了三种患者分类方式:
- 分类A :分为两组,A1(存活且无复发,nA1 = 63),A2(死亡或复发,nA2 = 51)。
- 分类B :分为三组,B1(首次缓解前死亡,nB1 = 13),B2(首次缓解期间死亡,nB2 = 17),B3(存活,nB3 = 84)。
- 分类C :分为两组(合并B1和B2),C1(死亡,nC1 = 30),C2(首次缓解期间存活,nC2 = 84)。

3. 研究方法
3.1 变量选择
  • 基于Wilks’s lambda(Λ)统计量 :采用逐步混合(向前 - 向后)和向前搜索方法,寻找具有最大判别能力的变量。小的Λ值表示变量子集具有良好的判别能力。向前选择时,每次引入使模型判别能力提升最大的变量;混合选择时,在每一步分析模型,若模型中对判别能力贡献最小的变量不满足标准,则将其剔除,否则引入能最大程度改善模型判别能力的变量。
  • 逻辑回归 :使用残差卡方统计量逐步选择变量集,通过Schwarz准则和负两倍对数似然评估模型拟合度,Wald卡方统计量检查单个参数的显著性。
  • 分类树 :使用预测器重要性排名。
3.2 分类程序
  • 判别分析 :开发一组判别函数,基于其他解释变量的值预测分类结果。采用线性和二次判别方法,以及具有正态核函数的核方法,协方差矩阵采用合并和非合并两种方式。核方法的半径通过实验确定,以实现最优的留一法分类。
  • 分类树 :使用CART(分类与回归树)方法和QUEST(快速、无偏、高效统计树)方法。
  • 逻辑回归 :适用于混合模型。
3.3 分类误差评估

由于数据集规模较小,无法分为学习样本和测试样本,因此采用交叉验证和留一法误差来衡量新患者分类的有效性。分类树使用三个随机子样本进行交叉验证,同时计算所有方法的再代入误差。分类树使用Statistica 5.0 for Windows软件,判别分析和逻辑回归使用SAS版本8.2软件。

3.4 缺失值处理

当某些变量数据缺失时,采用两种方法处理:
- 病例删除法 :若某一病例的所选变量中至少有一个存在缺失数据,则将该病例从分析中删除,得到较小的数据集。
- 多重插补法 :使用King等人(2001)的多重插补方法(EMis,即带重要性重采样的期望最大化),应用AMELIA软件填充缺失数据,插补数据集数量为5。

4. 研究结果
4.1 缺失值处理结果

由于数据集中不仅定量变量存在缺失值,定性变量也有缺失,且部分变量缺失比例较高(接近50%),因此不能用组均值替代缺失值,采用了病例删除法和多重插补法进行分析。
- 病例删除法 :对于分类A,选择的六个最具判别性的变量(ΛA = 0.67)有54名患者可用;对于分类C,选择的五个最具判别性的变量(ΛC = 0.42)有54名患者剩余。所有21个变量都有完整信息的患者只有44名(年龄在0.5至15.5岁之间),但对于逻辑回归和分类C选择的三个变量{4, 12, 17},有完整的114名患者数据(ΛC = 0.74)。
- 多重插补法 :保留所有变量在模型中,进行多重插补得到五个包含所有21个变量和114个病例的数据集,然后进行五次判别分析并合并结果,计算分类误差的均值和变异。

4.2 不同分类结果
  • 分类A :逐步混合和向前方法提供了六个变量{20, 12, 7, 8, 5, 9}(ΛA = 0.67)。推荐使用核函数,对于插补数据集和所有21个变量,核PP方法的平均留一法误差为0.2。分类树存在过拟合问题,逻辑回归效率不如其他方法。最重要的变量是血型和CD10 {12, 20}。线性判别函数为:
    LDFA(x) = -0.3974 × GRBLOOD + 2.8 × CD10 - 0.788 × CNS + 0.09 × HB - 0.05 × SPLEEN - 0.73
    若LDFA(x) > 0,将新患者x分类到A1组,否则分类到A2组,再代入误差为0.18,留一法误差为0.35。

  • 分类B :通过混合选择程序基于Wilks’s Λ选择的最具判别性的变量为{7, 12, 17, 20, 21},非参数核方法取得了较好的结果。

  • 分类C

    • 变量选择 :逐步向前选择和混合选择得到九个最具判别性的变量{12, 17, 7, 11, 20, 1, 8, 5, 6}(ΛC = 0.34),五个主要变量(ΛC = 0.42)为{12, 17, 7, 11, 20},即GRBLOOD、TIMETORE、CNS、PLT、CD10。
    • 分类误差 :不同判别方法的分类误差如下表所示:
      | Method | Case - wise deletion (n = 54) | | Multiple imputation (5 sets; n = 114) | |
      | — | — | — | — | — |
      | | Resubstitution | Cross - validation | Mean resubstitution | Mean cross - validation |
      | Linear | 0.019 | 0.11 | 0.19 | 0.2 |
      | Quadratic | 0.056 | 0.11 | 0.15 | 0.22 |
      | Kernel pooled covariance (radius r = 1.0) | 0.056 | 0.093 | 0.147 | 0.21 |
      | Kernel non - pooled covariance (radius r = 1.0) | 0.037 | 0.093 | 0.147 | 0.18 |
      | Classification tree (QUEST FACT F = 0.05) using variables No. 12, 17, 18, 20 | 0.04 | 0.27 | 0.15 | 0.27 |

    判别分析结果使用等先验概率(EP)和与组大小成比例的先验概率(PP)进行研究,由于分类C两组患者数量差异较大,PP结果优于EP结果。核半径r在所有检查案例中均选择为1.0。最佳分类树的再代入误差和全局交叉验证误差差异较大,表明树存在过拟合问题。最重要的变量是GRBLOOD和TIMETOREM {12, 17},这些变量也被逐步逻辑回归选中。线性判别函数为:
    LDFC(x) = 6.288 × CNS - 0.00001 × PLT + 1.28 × GRBLOOD - 0.18 × TIMETORE - 3.39 × CD10 - 0.51
    若LDFC(x) > 0,将新患者x分类到C1组,否则分类到C2组,再代入误差为0.019,留一法误差为0.11。

以下是分类过程的mermaid流程图:

graph LR
    A[数据收集] --> B[变量选择]
    B --> C{缺失值处理}
    C -->|病例删除法| D1[分类分析:病例删除数据集]
    C -->|多重插补法| D2[分类分析:插补数据集]
    D1 --> E1[分类结果评估]
    D2 --> E2[分类结果评估]
    E1 --> F[结果汇总]
    E2 --> F

综上所述,本研究通过多元统计方法对儿童白血病患者进行分类和预后预测,发现血型、达到缓解的时间和CD10抗原等变量在不同分类中具有重要意义,非参数核方法在预测儿童白血病持续缓解方面表现较好。但逐步选择变量的方法并不总是能得到最优模型,Wilks’s Λ也不一定是最佳的判别能力衡量指标,在实际应用中需要结合数据特点和误差评估方法进行综合考虑。

儿童白血病持续缓解预测研究

5. 不同分类结果的深入分析
5.1 分类A结果剖析

在分类A中,虽然核函数方法表现相对较好,但分类树存在过拟合问题,这意味着分类树在训练数据上表现良好,但在新数据上的泛化能力较差。逻辑回归效率不如其他方法,可能是因为逻辑回归假设变量之间存在线性关系,而实际数据可能并非如此。血型和CD10这两个变量在分类A中被认为是最重要的,这可能暗示着白血病的发生发展与患者的血型以及白血病细胞上CD10抗原的表达情况密切相关。例如,不同血型可能影响免疫系统对白血病细胞的识别和攻击能力,而CD10抗原的存在与否可能反映了白血病细胞的生物学特性和分化程度。

5.2 分类B结果剖析

分类B中,非参数核方法取得了较好的结果。这表明非参数核方法能够更好地适应数据的复杂分布,不依赖于特定的分布假设。所选的最具判别性的变量{7, 12, 17, 20, 21}涵盖了中枢神经系统浸润情况、血型、达到缓解的时间、CD10抗原以及治疗第14天的骨髓象等多个方面,说明这些因素综合起来对患者的预后有着重要的影响。例如,中枢神经系统浸润情况直接关系到白血病的严重程度和治疗难度,而达到缓解的时间则反映了治疗的效果和患者的身体反应。

5.3 分类C结果剖析

分类C中,逐步选择的变量显示出血型、达到缓解的时间、中枢神经系统浸润情况、血小板计数和CD10抗原等变量的重要性。非参数核方法在分类C中同样表现出色,尤其是核非合并协方差方法的留一法误差相对较小。分类树的过拟合问题再次凸显,这提示在使用分类树时需要谨慎选择参数和变量,避免过度拟合训练数据。线性判别函数LDFC(x)为新患者的分类提供了一个简单的方法,但在实际应用中,还需要结合其他因素进行综合判断。

6. 变量重要性分析

在所有三种分类中,变量{12, 17, 20}(GRBLOOD、TIMETOREM和CD10)都被证明是重要的。这进一步强调了血型、达到缓解的时间和CD10抗原在儿童白血病预后预测中的关键作用。以下是这些变量重要性的详细分析:
- 血型(GRBLOOD) :不同血型可能与白血病的易感性、治疗反应和预后相关。例如,某些血型可能具有特定的免疫特性,影响免疫系统对白血病细胞的攻击能力。此外,血型还可能与药物代谢和副作用有关,从而影响治疗效果。
- 达到缓解的时间(TIMETOREM) :达到缓解的时间反映了患者对治疗的反应速度和治疗的有效性。较短的达到缓解时间通常意味着患者的病情较轻、身体对治疗的耐受性较好,预后也相对较好。相反,较长的达到缓解时间可能提示白血病细胞的耐药性较强,治疗难度较大,预后较差。
- CD10抗原(CD10) :CD10抗原是一种细胞表面标志物,其在白血病细胞上的表达情况可能与白血病的生物学特性和分化程度有关。CD10阳性的白血病细胞可能具有不同的生长、增殖和转移能力,从而影响患者的预后。

7. 不同方法的比较
7.1 判别分析方法比较

线性判别分析、二次判别分析和核方法在不同分类中表现各有优劣。线性判别分析假设数据具有线性可分性,当数据满足这一假设时,能够提供简单有效的分类方法。二次判别分析则能够处理数据的非线性关系,但计算复杂度相对较高。核方法通过引入核函数,能够将数据映射到高维空间,从而更好地处理数据的复杂分布。在本研究中,核方法在多个分类中表现较好,尤其是核非合并协方差方法,这表明数据可能具有非线性和复杂的分布特征。

7.2 分类树方法比较

CART和QUEST两种分类树方法在本研究中都有应用。CART方法是一种经典的分类树方法,通过递归划分数据空间来构建分类树。QUEST方法则是一种快速、无偏、高效的统计树方法,能够在较短的时间内构建分类树。然而,两种方法都存在过拟合的问题,需要通过合理的参数选择和剪枝操作来提高分类树的泛化能力。

7.3 逻辑回归方法

逻辑回归在本研究中的效率不如其他方法,可能是因为逻辑回归的线性假设无法很好地拟合实际数据的复杂关系。逻辑回归适用于处理二分类问题,并且假设变量之间存在线性关系,但在实际的白血病预后预测中,变量之间的关系可能更加复杂。

以下是不同方法的性能比较表格:
| 方法 | 优点 | 缺点 | 适用情况 |
| — | — | — | — |
| 线性判别分析 | 计算简单,可解释性强 | 假设数据线性可分,对非线性数据效果差 | 数据满足线性可分假设的情况 |
| 二次判别分析 | 能处理非线性关系 | 计算复杂度高 | 数据存在一定非线性关系的情况 |
| 核方法 | 能处理复杂分布数据 | 计算复杂度较高,参数选择较困难 | 数据分布复杂,非线性程度高的情况 |
| 分类树(CART、QUEST) | 可解释性强,能处理非线性关系 | 易过拟合 | 数据关系复杂,需要直观解释的情况 |
| 逻辑回归 | 简单易懂,适用于二分类问题 | 假设变量线性关系,对复杂数据效果差 | 变量关系近似线性的二分类问题 |

8. 研究的局限性与展望
8.1 研究局限性
  • 数据局限性 :本研究的数据样本量相对较小,可能导致结果的稳定性和可靠性受到一定影响。此外,数据集中存在缺失值,尽管采用了病例删除法和多重插补法进行处理,但仍然可能引入偏差。
  • 方法局限性 :逐步选择变量的方法并不总是能得到最优模型,Wilks’s Λ也不一定是最佳的判别能力衡量指标。而且,不同方法都存在一定的局限性,如逻辑回归的线性假设、分类树的过拟合问题等。
  • 生物学机制研究不足 :虽然研究发现了一些重要的变量,但对于这些变量背后的生物学机制还缺乏深入的研究。例如,血型和CD10抗原与白血病预后的具体关系还需要进一步的实验和研究来证实。
8.2 研究展望
  • 扩大样本量 :未来的研究可以收集更多的儿童白血病患者数据,以提高结果的稳定性和可靠性。
  • 综合多种方法 :可以尝试综合使用多种统计方法和机器学习算法,结合不同方法的优点,提高预测的准确性。
  • 深入研究生物学机制 :开展进一步的实验研究,深入探讨血型、CD10抗原等变量与白血病预后的生物学机制,为临床治疗提供更有针对性的指导。

以下是研究改进的mermaid流程图:

graph LR
    A[当前研究] --> B{发现问题}
    B -->|数据局限性| C1[扩大样本量]
    B -->|方法局限性| C2[综合多种方法]
    B -->|生物学机制研究不足| C3[深入研究生物学机制]
    C1 --> D[改进研究]
    C2 --> D
    C3 --> D
    D --> E[获得更准确预测结果]

总之,本研究通过多元统计方法对儿童白血病患者进行分类和预后预测,为临床医生提供了有价值的参考。然而,研究仍存在一定的局限性,需要在未来的研究中不断改进和完善。通过进一步的研究,有望提高儿童白血病预后预测的准确性,为患者制定更加个性化的治疗方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值