Deep reinforcement learning for automated radiation adaptation in lung cancer
- 目的:
- 研究基于历史治疗计划的深度强化学习 (DRL),为非小细胞肺癌 (NSCLC) 患者开发自动放射适应方案,旨在以降低的 2 级放射性肺炎 (RP2) 率最大限度地控制肿瘤。
- 方法:
- 在接受放疗的 114 名 NSCLC 患者的回顾性人群中,开发了一个三组分神经网络框架,用于剂量分割适应的深度强化学习 (DRL)。除了肿瘤和肺剂量学变量外,大规模患者特征还包括临床、遗传和影像放射组学特征。首先,使用生成对抗网络 (GAN) 从相对有限的样本量中学习 DRL 训练所需的患者群体特征。其次,利用原始数据和合成数据(通过 GAN)通过深度神经网络 (DNN) 重建放射治疗人工环境 (RAE),以估计适应个性化放射治疗患者治疗过程的转换概率。第三,将深度 Q 网络 (DQN) 应用于 RAE,以在响应适应的治疗环境中选择最佳剂量。这种多组分强化学习方法以实际临床决策为基准,这些决策应用于自适应剂量递增临床方案。其中,34 名患者根据肿瘤中的 PET 信号进行治疗,并受到 17.2% 的 RP2 正常组织并发症概率 (NTCP) 限制的限制。简单治愈概率 (P+) 被用作 DRL 中的基线奖励函数。
- 结果:
- 将我们的自适应剂量递增协议作为提议的 DRL (GAN + RAE + DQN) 架构的蓝图,我们获得了自动剂量适应估计,用于在进入放射治疗过程的 2/3 处使用。通过让 DQN 组件自由控制每部分估计的适应剂量(范围为 1–5 Gy),DRL 自动支持 1.5 到 3.8 Gy 之间的剂量递增/递减,该范围类似于临床专业中使用的范围母校。相同的 DQN 为 34 名测试患者产生了两种剂量递增模式,但具有不同的奖励变体。首先,使用基线 P+ 奖励函数,DQN 的个体适应性分数剂量与临床数据具有相似的趋势,RMSE = 0.76 Gy;但 DQN 建议的适应通常在量级上较低(不那么激进)。其次,通过调整 P+ 奖励函数,更加强调减轻局部失败,实现了 DQN 和临床方案之间更好的剂量匹配,RMSE = 0.5 Gy。此外,DQN 选择的决定似乎与患者的最终结果有更好的一致性。相比之下,由于数值不稳定性和缺乏足够的学习,用于强化学习的传统时间差 (TD) 算法产生了 RMSE = 3.3 Gy。
- 结论:
- 我们证明了 DRL 的自动剂量调整是一种可行且有前途的方法,可实现与临床医生选择的结果相似的结果。如果要考虑个别情况,该过程可能需要定制奖励函数。然而,将该框架发展为用于临床决策支持的完全可信的自主系统需要对更大的多机构数据集进行进一步验证。
A Reinforcement Learning Approach to Weaning of Mechanical Ventilation in Intensive Care Units
- 有创机械通气的管理以及通气期间镇静和镇痛的调节构成了重症监护病房患者护理的主要部分。长期依赖机械通气和过早拔管都与并发症风险增加和住院费用增加有关,但临床对患者脱离呼吸机的最佳方案的意见各不相同。这项工作旨在开发一种决策支持工具,该工具使用可用的患者信息来预测拔管准备时间,并推荐个性化的镇静剂量和呼吸机支持方案。为此,我们使用离策略强化学习算法从次优的历史 ICU 数据中确定给定患者状态下的最佳行动。我们将拟合 Q 迭代的治疗策略与极其随机的树和前馈神经网络进行比较,并证明所学的策略在推荐具有改善结果的断奶方案方面显示出前景,在最小化再插管率和调节生理稳定性方面.
Optimal Medication Dosing from Suboptimal Clinical Examples: A Deep Reinforcement Learning Approach
- 肝素等具有敏感治疗窗的药物剂量不当会使患者面临不必要的风险,增加住院时间,并导致医院资源浪费。在这项工作中,我们提出了一个临床医生在环顺序决策框架,该框架提供了适合每个患者不断变化的临床表型的个性化给药策略。我们采用了来自公开可用的 MIMIC II 重症监护病房数据库的回顾性数据,并开发了一种深度强化学习算法,该算法从样本给药轨迹及其在大型电子病历中的相关结果中学习最佳肝素给药策略。使用单独的训练和测试数据集,我们观察到我们的模型在提出肝素剂量方面是有效的,从而导致比临床指南更好的预期结果。我们的结果表明,从回顾性数据中学习的顺序建模方法有可能在床边使用,以推导出个性化的患者剂量政策。
Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning
- WebMD 和 Mayo Clinic 等网站已经部署了在线症状检查器,以根据患者的症状确定疾病的可能原因和治疗方法。 症状检查首先通过询问一系列有关患者症状的问题来评估患者,然后尝试预测潜在疾病。 症状检查器的两个设计目标是实现高精度和直观的交互。 在本文中,我们提出了我们的上下文感知分层强化学习方案,该方案显着提高了传统系统症状检查的准确性,同时还进行了有限数量的查询。