一、文章主要内容
该研究聚焦大型语言模型(LLMs)在医学影像领域应用中的“幻觉”问题,从“图像到文本”和“文本到图像”两个方向展开系统分析,旨在提升LLM驱动医学影像系统的安全性与可信度。
1. 核心背景与问题
LLMs在医学影像任务(如影像解读、合成影像生成)中应用日益广泛,可辅助生成放射报告、助力医学教育等,但常产生“幻觉”——即自信却错误的输出,可能误导临床决策。例如在脑部MRI解读中,若LLM误判中线偏移程度,可能低估危及生命的病情;在生成影像时,若按提示生成含6mm中线偏移的MRI却出现解剖错误,会影响医学教育与诊断模型训练。
2. 研究方向与分析内容
- 图像到文本(影像解读):评估LLM对胸部X光、CT、脑部MRI等多模态影像的解读能力,重点分析事实矛盾、解剖不准确等错误。如检测胸腔积液时,不同LLM对积液位置(左侧、右侧、双侧)和严重程度(轻度、中度、重度)的判断存在差异,部分模型甚至漏判;在腹部CT中检测腹水时,对细微积液或与其他低衰减结构的区分能力不足,易出现“幻觉”或漏检。
- 文本到图像(影像生成):考察LLM根据临床提示生成医学影像的忠实度,发现两类典型“幻觉”:一是引入未提示且无临床意义的视觉元素(如生成含胸腔积液的胸部X光时,默认固定一侧,或生成术后腹部CT时额外添加手术夹);二是生成解剖或临床不合理内容(如按提示“生成含脚趾骨折的胸部X光”,GPT-4o错误叠加手指骨骼,而Gemini-2.5 Flash虽生成正确的胸部和足部X光但需额外澄清)。
医学影像中大模型幻觉研究

订阅专栏 解锁全文
295

被折叠的 条评论
为什么被折叠?



