在当今医疗信息化飞速发展的时代,电子健康记录(EHR)已然成为医疗体系中举足轻重的核心组成部分。 EHR 凭借其系统化的架构,将患者的病历信息以电子形式精准存储,涵盖从基本的人口统计学资料到动态的、随时间变化的医疗特征等多元内容,为医疗实践的各个环节提供了坚实的数据支撑,其在辅助临床决策、优化患者管理等关键领域发挥着不可替代的作用。
回顾 2020 年新冠疫情高峰期的临床实践,医生通过构建不同年龄层的患者队列发现关键规律:50-70 岁患者群体更易出现呼吸困难、认知衰退等重症表现,而 20-40 岁群体多为轻症或无症状感染。这种基于队列的对比分析,不仅为诊疗方案制定提供了直接依据,更揭示了 EHR 表征学习中被长期忽视的核心要素 —— 患者队列。
作为医疗研究的基本单元,队列通过共享特征识别具有相似临床特征的患者群体,其价值远超出个体数据的简单累加:既能够发现特定人群的疾病规律,如发热症状与新冠感染的关联性,更能为精准医疗干预提供靶向依据。但传统的队列划分方法存在诸多局限性,难以满足 EHR 数据处理的精细化要求,如无法实现细粒度队列划分,易引入噪声,且不能充分利用队列内与队列间的宝贵信息。
在此背景下,新加坡国立大学联合浙江大学提出了创新性方法 NeuralCohort,为 EHR 表征学习开辟了新的路径。这一方法通过独特的双模块架构,有望突破现有难题,充分释放 EHR 数据的潜能,为医疗分析注入强大动力,其在医疗领域的应用前景备受瞩目,有望深刻变革医疗数据分析与临床决策模式,推动医疗行业迈向更高层次的智能化、精准化发展。
相关研究成果以「NeuralCohort: Cohort-aware Neural Representation Learning for Healthcare Analytics」为题,入选 ICML 2025 。
研究亮点:
* 该研究提出的 NeuralCohort 是一种具有队列意识的神经表征学习方法,专注于支持细粒度队列生成
* NeuralCohort 创新性地同时利用了局部队列内和全局队列间信息,这些关键要素在之前的电子健康记录分析研究中未得到充分关注
* NeuralCohort 的优势在于其出色的兼容性,能够无缝集成到各种骨干模型中,作为多功能插件将队列信息纳入医疗分析,进而提高整体性能
论文地址:
NeuralCohort: Cohort-aware Neural Representation Learning for Healthcare Analytics | OpenReview
更多 AI 前沿论文: 最新论文 | HyperAI超神经
EHR 数据体系:多维度医疗信息整合与临床研究数据集支撑
该研究涉及的核心数据体系以电子健康记录(EHR)为基础,其数据结构整合了患者全周期医疗信息,包括住院、门诊、急诊的详细记录,以及临床诊断、治疗方案、用药历史、检验结果、影像报告和临床笔记等多维度信息,形成纵向追踪患者健康状态的结构化数据库,为临床决策、个性化医疗和人群健康研究提供全链条数据支持。如下表所示,该研究具体使用的数据集包括:
MIMIC-III 数据集作为公开可获取的重要医疗资源,涵盖了 53,423 次独特的住院记录,涉及在 2001 年至 2012 年间入住贝斯以色列迪卡尼医疗中心重症监护病房的 16 岁及以上成年患者,此外还包含 2,083,180 份已脱敏的临床笔记,为研究患者病情发展、治疗过程及临床决策提供了深度洞察。
MIMIC-IV 数据集则聚焦于 2008 年至 2022 年间收集的患者入院信息,其采用模块化数据组织结构,强调数据来源的可追溯性与独立性,便于研究者根据需求灵活调用不同数据源及其联合数据。
Diabetes130 数据集汇集了来自 130 家美国医院和综合医疗网络在 1999 – 2008 年间积累的临床护理数据,专注于糖尿病治疗领域的模式分析,其独特的数据主题与长期的数据积累,为深入研究糖尿病历史护理模式、优化糖尿病患者治疗方案以及实现安全个性化医疗服务提供了精准的数据支撑。
研究所用数据集的数据统计
NeuralCohort 模型:双模块驱动的队列意识 EHR 表征学习框架
为了有效整合患者队列以强化电子健康记录(EHR)数据的表征学习效果,NeuralCohort 由两大核心模块构成:预上下文队列合成模块(Pre-context Cohort Synthesis Module)与双尺度队列学习模块(Biscale Cohort Learning Module)。
NeuralCohort 概述
在预上下文队列合成模块中,NeuralCohort 模型首先引入了分层就诊引擎(Hierarchical Visit Engine),能够处理复杂的诊断代码本体结构,例如 ICD-9 的树状体系。通过结合路径表征与语义相似性度量,该模块能够有效区分具有层级关联的医学术语,如糖尿病及其并发症的不同编码。同时,模型可将诊断、药物、检验代码的分层特征整合,并运用反向时间注意力机制(Reverse Time Attention),以当前就诊为锚点动态聚合历史就诊信息,从而捕捉就诊序列的时间依赖性。
为应对传统患者相似性手动标注的低效问题,模块创新性地引入了伪相似性训练(PseudoSim Training)任务,利用诊断代码生成伪标签,并通过互信息神经估计优化患者表征。最终,借助 Jensen-Shannon 散度和学生 t 分布实现队列推导,为后续分析提供了结构化的患者分组方案。
双尺度队列学习模块则致力于挖掘队列内部的共性特征以及不同队列间的差异特征。在局部队列建模(Local Cohort Modeling)中,模型通过将每个队列视为图结构,并利用患者表征的余弦相似性构建邻接矩阵,图神经网络逐层聚合节点信息,从而捕捉同一队列内患者的交互模式。
全局队列建模(Global Cohort Modeling)采用编码器-解码器架构,通过重构损失保持队列语义完整性,同时结合对比损失强化不同队列的特征分离,确保跨队列的可区分性。
最终,通过跨域注意力机制融合骨干网络初始表征、队列内局部表征和队列间全局表征,形成包含多层级队列信息的最终表征。在模型训练过程中,损失函数集成了伪相似性训练损失、队列推导损失、队列对比损失及下游任务损失,通过权重参数调节实现多目标优化。这使得 NeuralCohort 不仅能够学习到细粒度的患者个体特征,还能捕获具有临床解释性的队列群体模式,为医疗数据分析任务提供了兼具精度与可解释性的解决方案,有望推动医疗决策的科学化与精准化。
多维实验验证:NeuralCohort 模型准确率提升 16.3%,显著增强患者管理的决策制定
为了评估 NeuralCohort 对电子健康记录(EHR)表征学习的优化效果,研究团队构建了一个全面的实验框架。
研究人员选择了 Med2Vec 、 MiME 和 ClinicalBERT 这 3 个在医疗数据分析领域具有代表性的模型作为基准框架。同时,为了进行有效的对比,实验中纳入了 KNN 、 K-Means 等 7 种传统队列整合算法作为对比方法。
实验设计聚焦于两个关键的医疗预测任务:医院再入院预测和长期住院时间(LOS)预测,这两个任务对于医疗资源管理和患者护理质量提升具有重要意义。为了全面评估模型的性能,研究人员采用了 AUPRC 、 AUROC 和准确率这 3 个广泛认可的评估指标,并通过五轮重复实验来获取稳定且可靠的统计结果,从而系统性地评估模型的泛化能力。
总体实验结果如下表所示,NeuralCohort 在 MIMIC-III 数据集的两个预测任务中表现出色,相较于传统基线模型,在 AUPRC 指标上最高提升了 8.0%,在 AUROC 指标上提升了 8.1%,而在准确率方面更是显著高出 16.3% 。
进一步的分析揭示,基线模型未能实现一致的性能提升,主要原因在于其在细粒度队列信息建模方面存在不足。例如,KNN 和 K-Means 算法不在相似性感知的特征空间内运行,DGLoS 构建的全局图较为粗粒度,GRASP 仅专注于队列间建模,而 DEC 、 DEKM 和 IDC 则无法有效对医学语义进行建模。这些缺陷导致基线模型在模拟患者相似性时表现不佳,甚至可能向骨干模型引入噪声,从而降低整体性能。
NeuralCohort 在 MIMIC-III 数据集的两个预测任务的表现
在与传统医学队列构建方法的对比中,NeuralCohort 同样展现出了显著的优势。传统方法通常依据性别、年龄、糖尿病诊断和高血压诊断等有限的特征进行队列划分,这种方法生成的队列较为粗粒度,难以满足队列模式挖掘的需求,并且容易将不相似的患者分到同一队列中,引入噪声。相比之下,NeuralCohort 利用患者从队列内和队列间的序贯就诊层面表征,在细粒度层面上进行操作,使得在 MIMIC-III 数据集中队列内患者的临床相似度提升了 23.5% 。
在 MIMIC-III 数据集上对传统队列和 NeuralCohort 进行比较
可解释性分析进一步揭示了 NeuralCohort 的优势。 Calinski-Harabasz 评分显示,NeuralCohort 生成的队列在长期 LOS 任务中,较 K-Means 等方法提升了 18.7%-25.4% 的 C-H 评分。基于 t-SNE 的可视化分析也表明,基线模型直接输出的表征存在显著的聚类重叠,而 NeuralCohort 如下图所示,通过队列信息注入,使得 8 个目标队列的区分度提升了 41.2%,其中心血管疾病队列、慢性代谢疾病队列等临床典型群体的特征边界尤为清晰。
对选定的 8 个队列点预测前的 t-SNE 可视化
在临床意义上,NeuralCohort 能够识别与临床结果直接相关的队列特定特征,从而显著增强患者管理。例如,通过 t 检验识别出的四个队列的独特特征,涵盖了心血管疾病、慢性代谢和血液疾病、肾脏和泌尿问题以及复杂的慢性病和急性病等不同类型的患者群体。
这些特征的识别使得医院能够更加针对性地分配资源,如遥测病床、心脏科会诊、糖尿病教育者、肾脏小组等,并制定相应的干预措施,如及时使用利尿剂、胰岛素滴定、安排影像学检查等,从而显著提高医院效率和患者护理质量。
产研协同,双向驱动的 EHR 创新生态
在电子健康记录(EHR)表征学习与队列分析领域,全球学术界与企业界正通过前沿技术突破与临床实践创新,推动医疗数据价值的深度释放,为精准医疗的发展注入新动力。
厦门大学王晓黎教授团队提出的 MHGRL 模型,通过构建多模态异构图整合 EHR 内部结构与外部医学知识,在 MIMIC-III 等数据集上显著提升了疾病预测精度。该模型采用的逆时间注意力机制,强化了当前就诊与历史记录的关联性,与 NeuralCohort 的预上下文队列合成模块在技术逻辑上形成呼应,均体现了对时间序列信息建模的重视。
康奈尔大学团队基于 800 万真实 EHR 数据构建的 GEMS 模型,展示了队列分析在临床决策中的直接应用。该研究通过图神经网络编码器捕捉晚期肺癌患者的 104 维特征向量,结合聚类模块识别出三类具有显著生存差异的亚表型,其预测总生存期的 c-index 达 0.665,远超传统基线模型,其技术路径与 NeuralCohort 的双尺度队列学习模块在方法论上高度契合,均聚焦于从复杂数据中挖掘具有临床意义的队列特征。
企业界同样成果斐然,正将学术界的前沿技术转化为实际的临床应用工具。例如,英国 NHS 与 Hippocratic AI 合作的 PATH 计划,通过对话智能体自动化病史采集与转诊验证,使专科候诊周期缩短 35% 。这种基于 EHR 的智能分诊系统,其内置的队列分析模块可实时识别高风险患者群体,例如通过自然语言处理从临床笔记中提取「慢性阻塞性肺疾病合并急性加重」等复合特征,动态调整患者优先级。
总结来看,学术界通过算法创新构建更精准的队列模型,不断拓展医疗数据挖掘的深度与广度;企业界则凭借其技术转化能力,将这些前沿技术转化为可落地的临床工具,提升医疗服务效率与质量。这种双向驱动的创新生态,不仅有望帮助医生获得更精准的诊断支持,更能从群体特征中发现个体风险的早期预警信号,推动医疗服务模式从疾病治疗向健康管理转变,为全球医疗体系的优化升级提供了有力支撑。
参考文章:
1.我中心1篇论文被COLING2024录用-厦门大学数字媒体计算中心
2.基于800万真实数据,康奈尔大学团队利用图神经网络精准预测肺癌患者生存期,发现3类致命亚型3.零度周刊|医疗健康:医疗 AI 蓬勃发展:Juvenescence 收购 Ro5,Autonomize 融资 2800 万美元