32、预测进入肾移植等待名单的研究

ruby5

于 2025-10-23 15:57:58 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：医疗信息学前沿探析文章标签：肾移植等待名单贝叶斯网络 CART决策树

本文链接：https://blog.youkuaiyun.com/ruby5/article/details/154232784

医疗信息学前沿探析专栏收录该内容

41 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

预测进入肾移植等待名单的研究

1. 数据来源

本研究的数据来自NEPHROLOR网络和生物医学机构（CRISTAL）的信息系统。NEPHROLOR网络有两个在洛林地区持续运行的互补信息系统：REIN登记处（肾病流行病学和信息网络）和DIVAT（移植信息化验证数据）。这些数据库在获得国家信息与自由委员会（CNIL）授权后采用实名登记。
- REIN登记处 ：它是NEPHROLOR网络的主要信息系统，取代了EPIREL研究（洛林慢性肾衰竭流行病学研究）。EPIREL是一项前瞻性研究，旨在评估洛林地区终末期慢性肾衰竭的治疗情况。从1997年6月15日至2001年1月1日，所有连续出现终末期慢性肾衰竭并开始肾脏替代治疗的患者都被纳入EPIREL研究。REIN登记处是一个全国性的终末期慢性肾衰竭登记处，涵盖接受透析或预先肾移植治疗的患者。它始于2001年，逐步扩展到法国各个地区，以覆盖整个领土。其目的是为制定和评估旨在改善慢性肾衰竭预防和管理的卫生策略做出贡献。患者纳入REIN的档案包含以下信息：
- 患者的社会人口学特征；
- 治疗开始的相关时期：肾衰竭的原因（初始疾病）、生物学数据和治疗开始时患者的活动情况；
- 患者的状态：生物临床数据、合并症、残疾、治疗方式、列入移植等待名单的情况。
患者还通过持续记录一些事件（透析治疗方法或方式的改变、机构间转移、停止治疗、肾移植、死亡）和年度评估进行跟踪。EPIREL和REIN数据库的结合使洛林地区能够拥有一个全面记录开始替代治疗的终末期慢性肾衰竭患者及其自1997年7月以来病情演变的信息系统。
- DIVAT数据库 ：洛林移植中心与DIVAT的合作使NEPHROLOR网络能够获得关于移植患者的非常详细的信息。DIVAT数据库于1990年由南特大学医院肾病科发起创建，旨在整合接受肾和/或胰腺移植患者的医疗信息。目前，南特、南锡、蒙彼利埃、利摩日、图卢兹的大学医院和内克尔医院都连接到了DIVAT信息系统。DIVAT包含关于受者、供者、免疫参数、诱导治疗、移植后感染/并发症以及患者和移植物存活情况的信息。此外，还会在移植后3个月、6个月和1年以及之后每年收集随访参数。
- CRISTAL信息系统 ：CRISTAL是生物医学机构的信息系统，涉及法国领土上的移植活动。患者从列入肾移植等待名单时起就被记录在CRISTAL中。它包含以下信息：列入名单时受者的医学评估、移植前的年度随访、移植报告（围手术期事件记录）、移植后的年度随访以及关于供者和移植物分配的信息。因此，CRISTAL使我们能够获得等待移植患者的死亡、暂时禁忌和退出名单等数据。

2. 研究人群

研究对象为满足以下条件的患者：
- 在1997年7月1日至2003年6月30日期间开始肾脏替代治疗（新发病例）；
- 年龄超过17岁；
- 居住在洛林地区；
- 由NEPHROLOR网络进行治疗。
这些患者从REIN登记处提取。为了识别那些在替代治疗开始之前或之后列入等待名单的患者，我们从DIVAT数据库和CRISTAL信息系统中提取了1996年1月1日至2004年12月31日期间所有洛林地区列入名单的居民信息。通过对这三个数据库提取的三个文件进行合并，我们确定了列入名单的患者。

3. 收集的数据

我们研究了三类变量：
|变量类别|具体变量|
| ---- | ---- |
|社会人口学特征|性别、年龄、居住地与移植中心的距离|
|首次替代治疗时的生物临床数据|相关病理（心血管疾病、糖尿病、呼吸功能不全、肝硬化、癌症病史、严重行为障碍、身体残疾）、身体质量指数（IMC，分为< 20；20 - 24.99；≥ 25kg/m²三个等级）、白蛋白血症（分为< 3；3 - 3.49；≥ 3.5g/L三个等级）、血红蛋白（分为< 11和≥ 11g/dl两个等级）|
|NEPHROLOR网络内的治疗特征|由进行移植的中心治疗与其他中心治疗的对比，以及治疗组织方式（公立与私立）|

4. 分析方法

数据筛选 ：有数据缺失的患者未纳入本次分析。我们对最初纳入研究的1495名患者中的809名进行了研究。对686名有数据缺失的患者和其他患者的特征进行了比较，发现两组在社会人口学特征（性别、年龄、居住地与移植中心的距离）和NEPHROLOR网络内的治疗方式（由进行移植的中心治疗、治疗机构的公立/私立状态）方面没有显著差异。然而，除糖尿病外，所有相关病理在没有数据缺失的患者中更为常见。最后，两组的列入名单率相似。需要指出的是，大多数数据缺失是由于EPIREL研究期间和2001年REIN登记处建立之前记录不完整（身高、体重等）造成的。自那以后，记录的完整性逐年提高。
数据分组 ：患者被随机分为两组：90%（729名患者）进入训练集（用于构建预测模型的数据），10%（80名患者）进入验证集，以评估预测模型在独立样本上的性能。我们使用X²检验来验证这两组的可比性。
贝叶斯网络分析 ：
- 原理：贝叶斯网络是一个有向无环图，其中节点代表随机变量，节点之间的箭头代表变量之间的关系。这些箭头并不意味着因果关系。直观地说，父节点和子节点之间的箭头表示父节点直接影响子节点，这些影响通过条件概率来量化。因此，图与它所包含变量的条件概率分布相关联。一旦构建了贝叶斯网络，就可以用于在已知其他事件的情况下计算某个事件发生的概率（推理）。
- 分析步骤 ：使用BAYESIALAB软件（版本3.3；Bayesia SA）分三步进行贝叶斯网络分析：
  1. 发现变量之间的关联；
  2. 分析关联以确定感兴趣的变量：列入等待名单（目标节点）；
  3. 进行推理以研究节点在提供关于目标节点知识方面的重要性。
- 预测应用 ：得到的贝叶斯网络用于在验证集中预测列入等待名单的情况。用于将患者分类为列入/未列入组的概率阈值为0.50。
决策树分析 ：
- 原理：决策树既是一种决策辅助工具，也是一种数据探索方法。它是一种分类和预测方法，以树状结构表示。决策树通过递归地将训练集尽可能有效地划分为最同质的子组，通过对描述性变量定义的测试来实现。在每个节点或测试中，选择一个描述性变量是因为它根据给定的分离标准对个体进行了最佳分类。当满足停止条件时，决策树的构建停止。根据构建算法，决策树可以识别对个体分类最相关的描述性变量，对应于树中每个节点实际选择的变量。
- 算法选择 ：在本研究中，使用CART算法（分类与回归树）进行分析，它基于基尼指数构建二叉树。此外，当达到最大深度5（根节点与叶子节点之间的最大层数）时，树的构建停止。使用SPSS Clementine软件（版本10.1）进行CART方法分析。
- 性能评估 ：在验证组中测量预测模型（贝叶斯网络和CART决策树）的性能，以灵敏度、特异性和阳性预测值来衡量。我们使用McNemar检验来研究这两个预测模型的一致性。

5. 研究结果

患者特征 ：纳入研究的809名患者的平均年龄为62.1 ± 14.2岁。十分之六的患者为男性（59.6%）。279名（34.5%）患者患有糖尿病，90名（11.1%）患有呼吸功能不全，358名（44.2%）患有心血管疾病。114名（14.1%）患者有癌症病史，19.5%患有身体残疾，5.9%有严重行为障碍。其中212名（26.2%）患者列入了等待名单。809名纳入患者被随机分为两组：90%（729名患者）进入训练集，10%（80名患者）进入验证集。两组患者的基本特征没有显著差异。
贝叶斯网络结果 ：图1显示了从训练组构建的贝叶斯网络。列入等待名单与糖尿病、心血管疾病、呼吸功能不全、年龄、白蛋白血症以及由进行移植的中心治疗直接相关。各变量在提供关于“列入等待名单”知识方面的相对重要性如下：
|变量|相对重要性|
| ---- | ---- |
|年龄|1.000|
|心血管疾病|0.3582|
|糖尿病|0.2287|
|白蛋白血症|0.1221|
|呼吸功能不全|0.0815|
|由进行移植的中心治疗|0.0749|
|身体残疾|0.0413|
|IMC|0.0138|
|居住地与移植中心的距离|0.0108|
|治疗机构的公立/私立状态|0.0037|
在验证集中对该网络进行评估。在验证组的80名患者中，有20名列入了名单。贝叶斯网络正确预测了20名列入名单患者中的18名和60名未列入名单患者中的58名。该模型预测列入名单的灵敏度、特异性和阳性预测值分别为：90.0%（95%置信区间：76.8 - 100）、96.7%（95%置信区间：92.2 - 100）和90.0%（95%置信区间：76.8 - 100）。
决策树结果 ：图2显示了从训练组生成的CART决策树。年龄是预测列入等待名单最具判别性的变量。CART模型正确预测了20名列入名单患者中的18名和60名未列入名单患者中的58名。在验证集中评估决策树的性能，其预测列入等待名单的灵敏度、特异性和阳性预测值分别为：90.0%（95%置信区间：76.8 - 100）、96.7%（95%置信区间：92.2 - 100）和90.0%（95%置信区间：76.8 - 100）。McNemar检验未发现贝叶斯网络和CART算法的预测结果有显著差异。两个模型的预测结果在2名患者上不一致。贝叶斯网络和CART决策树预测结果的Kappa一致性指数为0.93。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(开始):::process --> B(数据收集):::process
    B --> C(数据筛选):::process
    C --> D(数据分组):::process
    D --> E(贝叶斯网络分析):::process
    D --> F(决策树分析):::process
    E --> G(模型评估):::process
    F --> G
    G --> H(结果分析):::process
    H --> I(结束):::process

综上所述，贝叶斯网络和CART决策树是预测NEPHROLOR网络内进入肾移植等待名单的两种有趣且有效的方法。这两种方法各有优劣，贝叶斯网络能提供变量之间关联的全局视图，而决策树的决策规则简单易懂。将这些算法集成到REIN信息系统中，可以计算每个新患者列入等待名单的概率，从而激励肾病医生向患者介绍移植情况并更早开始移植前评估，优化肾移植候选者的选择过程。

预测进入肾移植等待名单的研究

6. 方法对比与讨论

两种预测模型在预测肾移植等待名单准入方面都表现出色，但它们在变量选择和模型特点上存在一些差异。

模型	优点	缺点
贝叶斯网络	能呈现变量间复杂关系，提供全局视角；可考虑变量间所有相互依赖关系，发现新关联	关系复杂，解释困难；模型解释需专业知识，临床应用有挑战
CART决策树	决策规则简单，易被临床医生理解和应用；能明确识别对分类重要的变量	对训练集变化敏感；构建过程顺序进行，不重新评估先前选择的测试

从变量选择来看，两个模型都认为年龄、心血管疾病、糖尿病和白蛋白血症是预测列入等待名单的重要因素。但贝叶斯网络还纳入了呼吸功能不全和由进行移植的中心治疗这两个变量，而CART决策树则使用了IMC和居住地与移植中心的距离。这表明不同模型对变量的敏感度和侧重点有所不同。

在实际应用中，贝叶斯网络和CART决策树可以相互补充。贝叶斯网络的全局视角有助于发现潜在的变量关系，为进一步研究提供方向；而CART决策树的简单规则则便于临床医生在日常工作中快速应用。

7. 实际应用与优化建议

将这两种预测模型应用于肾移植等待名单的管理中，可以带来多方面的优化效果。具体操作步骤如下：
1. 算法集成 ：将贝叶斯网络和CART决策树算法集成到REIN信息系统中。这样，当新患者在系统中登记时，系统可以自动根据患者的基本特征计算其列入等待名单的概率。
2. 医生培训 ：对肾病医生进行相关培训，使其了解这两种模型的原理和应用方法。医生可以根据模型的预测结果，向患者介绍肾移植的可能性，并提前开始移植前的评估工作。
3. 流程优化 ：根据模型的预测结果，优化肾移植候选者的选择过程。例如，对于预测列入等待名单概率较高的患者，可以优先进行评估和安排；对于概率较低的患者，可以进一步评估其潜在的可改善因素。
4. 持续监测与改进 ：定期对模型的性能进行评估和监测，根据实际情况对模型进行调整和改进。同时，收集患者的反馈信息，不断优化预测模型和管理流程。

通过以上操作，可以提高肾移植等待名单管理的效率和公平性，使更多符合条件的患者能够及时获得肾移植的机会。

8. 总结与展望

本研究使用贝叶斯网络和CART决策树两种数据挖掘方法，成功地预测了NEPHROLOR网络内患者进入肾移植等待名单的可能性。这两种模型表现出色，预测结果相近，且具有很强的互补性。

贝叶斯网络提供了变量之间关联的全局视图，有助于发现潜在的关系和规律；而CART决策树的决策规则简单易懂，便于临床医生应用。将这两种方法应用于患者初始登记时，可以动态优化肾移植等待名单的登记过程，提高患者获得肾移植的机会。

未来的研究可以进一步探索如何更好地结合这两种模型，提高预测的准确性和可靠性。同时，可以考虑将更多的变量纳入模型，如患者的基因信息、生活方式等，以更全面地评估患者的肾移植可能性。此外，还可以将这种预测方法推广到其他地区和医疗网络，为更多的患者提供帮助。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(患者登记):::process --> B(计算概率):::process
    B --> C{概率高?}:::process
    C -- 是 --> D(优先评估):::process
    C -- 否 --> E(进一步评估):::process
    D --> F(列入名单):::process
    E --> G(改善因素):::process
    G --> B
    F --> H(等待移植):::process

总之，通过数据挖掘技术的应用，我们可以更好地管理肾移植等待名单，为终末期肾病患者提供更公平、高效的治疗机会。随着技术的不断发展和研究的深入，相信在肾移植领域将会取得更多的突破和进展。