主要内容
- 研究背景与目的:医疗记录的整理和分析耗费医护人员大量时间,自然语言处理(NLP)技术中的命名实体识别(NER)可将非结构化患者信息转换为结构化记录,助力医疗工作。临床大语言模型(cLLMs)在医疗领域应用广泛,但在识别患者详细病史实体(MHEs)方面研究有限。本研究旨在比较微调后的cLLMs识别与患者主诉(CC)、现病史(HPI)和既往、家族、社会史(PFSH)相关MHEs的性能,并通过错误分析探究影响模型准确性的文本特征。
- 研究方法
- 数据来源与标注:使用Medical Transcription Sample Reports and Examples(MTSamples)中的61份门诊相关临床笔记,标注了1449个MHEs,涵盖多种笔记类型。标注工作由本科生初标,经多位作者审核。
- 模型选择与微调:以零样本设置的GPT-4o为基线,微调7种cLLMs。采用两种微调方式,一种是基本微调,另一种是融入预识别基本医疗实体(BMEs)信息的微调。
- 模型评估:从准确性评估和错误关联分析两方面评估微调后的cLLMs。准确性评估包括精确匹配、宽松匹配和错误分析;错误关联分析研究实体长度、笔记长度和分段对模型性能的影响。
- 研究结果
- 模型准确性:微调后的GatorTron和GatorTronS性能最佳,融入
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



