本文是LLM系列文章,针对《CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation》的翻译。
CheXagent:建立胸部X射线解释的基础模型
摘要
胸部X光片(CXR)是临床实践中最常见的影像学检查。视觉语言基础模型(FM)开发的最新进展带来了执行自动CXR解释的可能性,这可以帮助医生做出临床决策并改善患者的预后。然而,由于(1)医学图像领域中大规模视觉语言数据集的可用性有限,(2)缺乏能够捕捉医学数据复杂性的视觉和语言编码器,以及(3)缺乏用于基准测试FMs对CXR解释能力的评估框架,开发能够准确解释CXR的FMs具有挑战性。在这项工作中,我们通过首先引入CheXinstruct来应对这些挑战——这是一个由28个公开可用的数据集策划的大规模指令调优数据集。然后,我们向CheXagent介绍一种能够分析和总结CXR的指令调整FM。为了构建CheXagent,我们设计了一个用于解析放射学报告的临床大型语言模型(LLM)、一个用于表示CXR图像的视觉编码器,以及一个连接视觉和语言模态的网络。最后,我们介绍了CheXbench,这是一种新的基准,旨在系统评估8项临床相关CXR解释任务中的FMs。由五位放射科医生进行的广泛定量评估和定性审查表明,CheXagent在CheXbench任