文章主要内容总结
该研究旨在评估具有推理能力的大型语言模型(LLMs)在层级化临床文档分类(特别是ICD-10编码)中的表现,以探索其辅助临床编码的潜力。
- 研究背景:ICD-10编码是医疗运营的核心任务,但人工编码耗时且易出错。LLMs有望自动化该过程,但其可靠性和推理能力尚未明确。
- 研究目标:对比推理型与非推理型LLMs在ICD-10层级分类中的表现,评估结构化推理对模型性能的影响。
- 研究方法:
- 数据集:选取MIMIC-IV数据集中1500份出院小结,涵盖10个最频繁的ICD-10代码,平衡成本与规模。
- 预处理:使用临床NLP工具cTAKES提取医疗相关概念(如疾病、症状),精简输入文本。
- 模型与评估:测试11个LLM(5个推理型,6个非推理型),采用标准化提示模拟临床编码场景,通过F1分数在ICD-10的3、4、5级(从泛化到具体)评估“主要诊断”和“所有诊断”任务。
- 关键结果:
- 所有模型的F1分数均未超过57%,推理型模型平均表现优于非推理型,其中Gemini 2.5 Pro性能最佳。
- 编码越具体(层级越高,如5级),模型表现越差;部分代码(如I25,慢性缺血性心脏病)分类较准确,而Y92(外部原因发生地)、Z51(医疗护理)等代码的F1分数接近0。
- 结论
订阅专栏 解锁全文
142

被折叠的 条评论
为什么被折叠?



