一、文章主要内容
- 研究目标:解决人工分析临床数据挖掘疾病关联的局限性,对比不同方法在疾病关联性挖掘中的效果,弥补医学领域疾病关联缺乏“金标准”的缺口。
- 数据与方法:基于MIMIC-IV数据集的ICD-10代码(含序列数据和文本描述),评估10种方法,分为四类——真实数据统计方法(Fisher精确检验、Jaccard相似度、MLM)、医学领域预训练模型(Med-BERT、BioClinicalBERT)、文本描述方法(BERT、Yandex Doc Search)、LLMs(DeepSeek、Qwen、YandexGPT)。
- 核心发现:LLMs生成的疾病关联与其他方法相关性弱,ICD代码关联多样性最低,发现新关联的潜力有限;医学预训练模型(如Med-BERT)能捕捉临床相关模式,统计方法可反映真实共病模式;构建了基于多方法共识的疾病本体论,为临床研究和医疗AI提供基础资源。
- 评估方式:采用相关性分析、t-SNE可视化、基于图的比较(度分析、PR AUC计算)等无监督评估方法,结合医学文献验证部分关联的合理性。
二、文章创新点
- 系统对比四类方法:首次在统一框架下全面评估统计方法、医学预训练模型、通用文本模型和LLMs在疾病关联挖掘中的表现,覆盖10种具体方法。
- 无监督评估框架:针对医学疾病关联缺乏金标准的问题,提出多维度评估方案(矩阵相关性、嵌入可视化、图结构分析),实现方法间的客观对比。
- 共识医学本体论:基于多种方法独立识别的疾病关联,按支持方法数量分配置信度,构建兼具已知临床关联和潜在新关联的共识本体。

订阅专栏 解锁全文
1026

被折叠的 条评论
为什么被折叠?



