RadLLM: A Comprehensive Healthcare Benchmark of Large Language Models for Radiology放射学大型语言模型综合医疗基准测试

一、 研究目标

本研究旨在系统评估全球范围内(尤其是具备中英双语能力的)大型语言模型在放射学自然语言处理任务上的性能,填补该领域缺乏全面、科学评估的空白。

二、 核心任务

评估LLMs执行一项关键的放射学NLP任务:根据胸部X光报告的“发现”部分,自动生成简洁、准确的“印象”摘要

三、 方法论

  1. 模型选择:精心挑选了32个具有代表性的LLMs,包括:

    • 国际领先模型:ChatGPT、GPT-4、PaLM 2、Anthropic Claude 2。

    • 主要来自中国的开源与商业模型:如ChatGLM系列、百川、MOSS、华佗GPT、扁鹊、Aquila、BayLing等。

    • 控制变量:为便于比较,主要聚焦于约70亿参数规模的模型。

  2. 评估数据集:使用两个公开的权威放射学报告数据集:

    • MIMIC-CXR(大型住院患者数据集)。

    • OpenI(独立外部数据集)。

  3. 评估设置:采用零样本、单样本、五样本三种提示设置,以测试模型在不同程度示例指导下的泛化能力。使用统一的提示词和推理参数。

  4. 评估指标:采用基于N-gram重叠率的Rouge分数(R-1, R-2, R-L)作为核心定量指标。

四、 主要发现

  1. 性能差异显著:不同模型在不同数据集和样本设置下表现差异巨大。

    • 顶尖表现者:在某些设置下,Anthropic Claude 2、BayLing-7B、PaLM 2等模型展现了领先的性能。

    • 部分模型表现不佳:如AtomGPT_8k等模型在所有设置中得分均很低。

  2. 规模非唯一决定因素:拥有约70亿参数的“轻量级”模型(如BayLing-7B)可以在特定任务上达到甚至超越某些更大规模模型的性能,表明模型架构、训练数据和微调策略至关重要

  3. 中国LLMs具备竞争力:许多中国的LLMs(如ChatGLM-6B、百川-7B、Ziya-LLaMA等)展现出了与全球领先模型相媲美甚至更优的性能,凸显了其在医疗应用、特别是中文语境下的潜力。

  4. 评估指标的局限性:研究发现,被视为能力最强的GPT-4在Rouge分数上并未显著领先。这提示Rouge分数可能无法完全反映模型的临床知识深度和推理质量(例如,GPT-4可能生成更全面、更谨慎但更冗长的回答,导致分数较低)。

五、 研究意义与启示

  1. 提供关键基准:本研究是首个在放射学领域对全球范围LLMs进行大规模、标准化基准测试的工作,为后续研究和应用提供了重要的性能参照。

  2. 指导模型选择:结果表明,没有“全能”模型,应根据具体任务需求、语言环境和计算资源来选择合适的LLM

  3. 展望未来方向

    • 多模态LLMs:未来应开发并评估能同时处理影像和文本的多模态模型,以实现更直接的影像解读。

    • 超越表面指标的评估:需建立融合临床准确性、安全性和实用性的人工评估体系。

    • 促进实际应用:这些LLMs有潜力辅助生成初步报告、减轻放射科医生文书负担,在资源匮乏地区尤其有价值。

本研究证实了LLMs在放射学文本理解与生成任务上具有巨大应用潜力。全球LLM生态,特别是中国的双语模型,已展现出强大的竞争力。这项工作为未来在医疗领域更深入、更负责任地开发和部署LLMs奠定了基础,并呼吁社区关注模型评估、伦理部署和跨学科合作,以最终提升全球医疗服务质量。总结而言,这是一项奠基性的基准研究,它系统性地“测绘”了当前LLMs在放射学NLP任务上的能力版图,揭示了优势与不足,并为该领域未来的技术发展和临床转化指明了方向。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

摘要

大型语言模型(LLMs)的兴起标志着自然语言处理(NLP)领域的一个关键转变。LLMs已经彻底改变了多个领域,并在医疗领域产生了重大影响。目前大型语言模型比以往任何时候都更加丰富,其中许多模型展现出双语能力,精通英语和中文。然而,对这些模型进行全面评估仍有待进行。这种评估的缺失在放射学NLP的背景下尤其明显。本研究旨在通过批判性地评估三十二个LLMs在解读放射学报告(放射学NLP的一个关键组成部分)方面的表现来弥补这一空白。具体而言,评估了从放射学发现中提取“印象”部分的能力。本次评估的结果为了解这些LLMs的性能、优势和劣势提供了关键见解,为它们在医疗领域的实际应用提供了参考。

1 引言

近年来,大型语言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8]已成为自然语言处理(NLP)领域的重要工具。与传统的NLP模型相比,LLMs在庞大的数据集上进行训练,展现出令人印象深刻的能力,范围从语言翻译到创造性内容生成和问题解决。例如,OpenAI的对话模型ChatGPT¹因其出色的性能而获得了广泛关注,引发了LLM发展的潮流,对整个AI社区的发展产生了深远影响。

ChatGPT基于GPT-3.5版本[9]开发,于2022年11月发布。它在一个包含大量文本和代码的数据集上进行训练,能够生成文本、翻译语言、撰写各种创意内容,并以信息丰富的方式回答您的问题。它目前广泛应用于许多领域,如智能客服、摘要生成等,为语言模型的应用提供了更多可能性[10, 11, 1, 12]。拥有1.8万亿参数的多模态模型GPT-4²于2023年3月发布,其整体性能和准确性超过了之前的版本。此外,ChatGPT插件功能的引入直接赋予了ChatGPT使用其他工具和连接互联网的能力,打破了模型数据的限制。ChatGPT的流行兴起导致了新LLM开发的激增。目前已有数百个开源LLMs可用,例如Hugging Face的BLOOM [13],它在46种自然语言和13种编程语言上使用1760亿个参数进行训练,而大多数LLMs并未公开发布,并且主要基于以英语为主要语言的拉丁语系语言。同时,从Meta开源的LLaMA [14]系列模型开始,斯坦福大学等机构的研究人员相继开源了基于LLaMA的轻量级模型,如Alpaca³、Koala⁴和Vicuna⁵等。此类模型的研究和应用门槛大大降低,训练和推理成本也一再降低。

中国的LLM基本上可以分为三条赛道:公司、研究机构和大学,例如百度的文心一言⁶、华为的盘古模型系列、IDEA的Ziya-LLaMA⁷系列、复旦大学的MOSS⁸。许多相应的模型基于LLaMA、chatGLM⁹、BLOOM,以及其他不遵循Transformer方法(如baichuan¹⁰、RWKV [15])的模型。这些模型正被用于各种任务,包括自然语言理解、自然语言生成、机器翻译和问答。

⁶ https://yiyan.baidu.com/
⁷ https://github.com/IDEA-CCNL/Fengshenbang-LM
⁸ https://github.com/OpenLMLab/MOSS

这些模型的多功能性延伸到了医疗领域[16, 17, 18, 19, 20, 21, 22, 23, 8]。例如,LLMs可用于生成个性化医疗报告[24, 25, 26, 27]、促进在线医疗咨询、远程医疗诊断和指导[5, 28],以及辅助医疗数据挖掘[5]等应用。在与人工智能发展持续交织的放射学和医学图像分析领域[29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 36, 40, 41, 42, 37, 43, 44, 45, 46],一个重要应用在于图像解读。生成式AI可以帮助自动化初步诊断过程,可能节省医生的时间。这在缺乏训练有素的放射科医生的情况下可能特别有用。此外,医生可能不再需要手动将数据输入患者的电子病历。此外,这些模型能够辅助临床决策。通过处理和分析患者的放射学数据以及其他相关医疗信息,LLMs可以生成针对患者的特定报告,并提供可能的诊断、治疗建议或潜在风险。更进一步,LLM的进展推动了许多专门的生物医学LLMs的发展,例如华佗GPT [47],这是一个来自香港中文大学的开源模型,以BLOOMZ [48]为骨干,在监督微调阶段使用了从ChatGPT提炼的数据和医生的真实数据。以及XrayGLM¹¹,这是第一个专注于胸部X光诊断的中文多模态大模型,它基于VisualGLM-6B¹²,并在两个开源的胸部X光数据集上进行了微调。其他包括QiZhenGPT¹³、BioMedLM¹⁴、BioGPT [49]、PMC-LLaMA [50]、Med-PaLM [51]等,这些都展示了LLMs在医疗领域的巨大潜力。

⁹ https://github.com/THUDM/ChatGLM-6B
¹⁰ https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/summary
¹¹ https://github.com/WangRongsheng/XrayGLM
¹² https://github.com/THUDM/VisualGLM-6B

尽管LLMs在各行各业日益普及,但对其性能的全面理解和评估,尤其是在放射学NLP这一专业领域,仍然明显缺失。当我们考虑到其他地区(如中国)新兴的LLMs时,这种知识的匮乏更为突出,其中相当一部分模型声称具备强大的英汉双语能力。这些模型常常未被充分利用和评估,它们在处理和理解多语言医疗数据方面可能具有独特的优势。在医疗和放射学领域缺乏对这些模型深入、科学的性能评估研究,标志着一个亟待填补的重要知识空白。在此背景下,我们认为对这些世界范围内的LLMs进行严格、系统的探索和分析至关重要。这不仅有助于更好地理解它们的能力和局限,还能将它们置于全球LLM的格局中。通过将它们与成熟的国际领先模型进行比较,我们旨在揭示它们的相对优势和劣势,从而更细致地理解LLMs在放射学领域的应用。这反过来,将潜在地有助于优化和开发更高效、更有效的放射学NLP/LLM工具。

我们的研究聚焦于放射学NLP的一个关键方面,即解读放射学报告并从放射学发现中提取印象。我们使用一个稳健的放射学报告数据集对所选模型进行严格评估,用多种指标对其性能进行基准测试。

初步发现揭示了模型各自的优势和劣势存在明显差异。这些发现的含义,以及它们对LLMs在放射学NLP中应用的潜在影响,将在文中详细讨论。

从大局来看,本研究是朝着在放射学NLP中更广泛采用和微调LLMs迈出的关键一步。我们的观察和结论旨在推动进一步的研究,因为我们坚信,这些LLMs可以被用作放射科医生和更广泛医疗社区的宝贵工具。

2 相关工作

2.1 大型语言模型评估

LLMs的快速发展正在彻底改变自然语言处理领域[52, 53, 54]以及受益于NLP的领域[55, 56, 57, 58, 36, 59, 60, 28, 61, 62]。这些强大的模型在许多NLP任务中表现出色,如自然语言生成(NLG),甚至是人工通用智能(AGI)。然而,要有效且高效地利用这些模型,需要对其能力、局限性和整体性能有实际的了解,因此评估这些模型至关重要。

为了比较不同LLMs的能力,研究人员通常使用各个领域(如文学、化学、生物学等)的基准数据集进行测试,然后根据传统指标(如正确答案率、召回率和F1值)评估其性能。OpenAI最近的研究[63]包括一项开创性的研究,评估大型语言模型(即GPT-4)在为受过教育的人士专门设计的学术和专业考试上的表现。研究结果表明,GPT-4在包括律师资格考试和GRE在内的多种科目中表现出色。此外,微软的一项独立研究显示,GPT-4在USMLE(美国执业医师资格考试)上的表现远超合格线[64]。Holmes等人[65]探索了LLMs在解答放射肿瘤物理学问题中的应用,为科学和医学领域提供了见解。这项研究为评估LLMs在放射肿瘤物理学场景中的性能提供了一个有价值的基准。

与上述使用传统评估方法的研究不同,Zhuang等人[66]引入了一种基于认知科学[67]的LLM评估新方法。具体而言,受心理测量学中计算机化自适应测试(CAT)的启发,他们提出了一种自适应测试框架来评估LLMs,该框架根据单个模型的表现调整测试项目的特征,如难度级别。他们对最新的6个指令调优LLMs(即ChatGPT (OpenAI)、GPT-4 (OpenAI)、Bard (Google)、文心一言 (Baidu)、通义千问 (Alibaba)、讯飞星火 (iFlytek))进行了细粒度诊断,并从学科知识、数学推理和编程三个方面对它们进行排序。研究结果表明,GPT-4相较于其他模型具有显著优势,其认知熟练度达到了中等水平学生的水平。同样,传统的评估方法也不适用于


代码生成任务。Zheng等人[68]提出了一个具有130亿参数的多语言代码生成模型,并在HumanEval(仅限Python)的基础上,他们开发了HumanEval-X基准,通过手写C++、Java、JavaScript和Go的解决方案来评估多语言模型。

尽管如此,在放射学领域的NLP中,对大型模型的评估仍然存在明显不足。因此,本研究致力于对在放射学领域运行的大型模型进行分析性评估。这项研究是首次尝试在放射学范畴内对大规模语言模型(LLMs)进行详尽评估,从而为未来旨在评估LLMs在复杂专业医疗实践方面效能的研究铺平道路。

2.2 其他地区大型语言模型的发展

其他地区的许多团队对LLMs进行了大量尝试和研究。例如,复旦大学OpenLMLab团队开发的MOSS,百度团队开发的百川系列模型,商汤科技开发的“日日新”模型,华为开发的盘古,哈尔滨工业大学开发的ChatGLM-med,以及中国人民大学开发的玉兰-Chat。下文将对这些模型进行介绍。

MOSS [69]是一个开源的中英文大语言模型系列,包含多个版本。基础模型moss-moon-003-base是所有MOSS版本的基础,在高质量中英文语料库上进行预训练,涵盖7000亿词。为了使MOSS适应对话场景,使用基础模型在超过110万轮对话数据上对模型moss-moon-003-sft进行微调。它具备遵循指令、理解多轮对话和避免有害请求的能力。此外,除了提供咨询和问答功能外,moss-moon-003-sft-plugin模型不仅在超过110万对话数据上进行训练,还在超过30万带有插件的增强对话数据上进行训练。它扩展了moss-moon-003-sft模型的能力,包含了使用搜索引擎、文本生成图像、执行计算和求解方程等插件功能。moss-moon-003-sft和moss-moon-003-sft-plugin都有4位量化和8位量化的版本,适用于资源较低的环境。

百川是由百川智能开发的开源大规模预训练语言模型,基于Transformers [70]架构。它在1.2万亿个词元上训练,包含70亿个参数,支持中文和英文。训练中使用了4096个词元的上下文窗口长度。在实际测试中,该模型也可以扩展到超过5000个词元。它在标准中英文基准测试(C-Eval [71]/MMLU [72])上取得了同尺寸模型中的最佳性能。

ChatGLM-6B是一个基于通用语言模型(GLM)[73]框架的开源双语语言模型,拥有62亿个参数。该模型在约1万亿个中英文语料词元上进行训练,并辅以监督微调、反馈引导和人类反馈强化学习[74]。它针对中文问答和对话进行了优化。此外,该模型能够生成符合人类偏好的答案。ChatGLM-med [75]是ChatGLM-6B的一个变体,专门针对中文医学指令进行了微调。该中文医学指令数据集是使用医学知识图谱和GPT3.5 API构建的。微调过程是在现有的ChatGLM-6B模型之上进行的。

玉兰 [76]由中国人民大学GSAI团队开发。它利用LLaMA基础模型,并在高质量的中英文指令数据集上进行微调。数据集构建涉及三个阶段:开源指令去重、基于主题控制的指令多样化以及指令复杂化。这些阶段旨在增强指令学习数据集的多样性。

目前阶段存在各种类型的LLMs,其中大多数基于遵循Transformer [70]架构的预训练语言模型作为基础模型。这些模型在基础模型之上,使用特定领域或高质量构建的数据进一步进行微调。通过利用高质量、特定领域的数据,可以从基础模型衍生出具有专业知识的模型。

2.3 在医疗领域的应用

LLMs的发展可能在医疗领域带来许多潜在应用。总的来说,它们可用于以下四个领域:临床文书、临床决策支持、基于知识的医疗信息检索与生成以及医学研究。

临床医生和医疗专业人员每天都有大量的临床文书工作需要完成。有些工作可能相当繁琐和耗时。LLMs可能被应用于辅助记录患者信息和症状[77],生成准确且全面的临床记录和检查报告,从而有效减轻医生和临床专业人员的文书负担。例如,开发了一个从放射学报告中总结“印象”部分的LLM,为类似领域的应用提供了一个范例[27]。

LLMs也可以应用于提供临床决策支持,例如推荐药物使用[78]、根据临床表现识别合适的影像学服务[79],或从大量临床记录和报告中确定病因。当与其他模态(如影像)结合时,它可以生成全面的信息,辅助医生进行疾病诊断[80]。此外,从具有相似症状的病例中,LLMs可以生成患者疾病结果,预测治疗可能的情况,并支持医生和患者就治疗方案做出决策。

基于知识的应用是LLMs可以发挥重要作用的另一个领域。例如,开发一个LLM应用来回答患者的健康相关问题可能很有用[1, 81]。通过对特定领域数据的训练,LLM应用可以为医生和健康专业人士提供来自大量科学文献、研究论文和临床指南的相关医学信息,使他们能够快速获取关于疾病、治疗、药物相互作用等的最新信息[3, 82]。基于知识的LLMs可以通过回答一般性或具体问题来帮助培训医学学员和教育患者[83]。通过与患者的医疗记录整合,LLMs可以提供个性化的药物使用、持续治疗或患者可能有的任何相关问题的信息和解释。

LLMs对医学研究社区[1, 84, 85, 86, 60, 87, 88]和公共卫生[57, 89]有巨大益处。例如,患者医疗记录的隐私是临床中的一个重大问题。在将医疗记录用于研究和结果公开发布之前,必须去除识别信息。LLM应用可以帮助从医疗记录中去除识别信息,可被广泛利用,有利于医学研究[26]。临床NLP模型的训练可能因缺乏医疗文本数据而受阻;通过LLMs进行医疗文本数据增强可以提供额外的样本,有利于NLP模型训练[90]。此外,LLMs可以进行关于特定疾病的数据收集、处理和分析,为研究人员提供量化的指标和宝贵的见解[91]。

3 方法

本节将讨论我们对LLMs的测试方法。我们将首先介绍用于评估的数据集MIMIC和OpenI。我们的测试方法涉及使用一组固定的提示词和参数来评估LLMs在放射学领域的性能,特别侧重于从“发现”部分推导“印象”部分的性能。为确保一致性,我们设置了LLMs的几个超参数,即temperature设为0.9,top_k设为40,top_p设为0.9。为了评估模型的零样本和小样本性能,我们使用了零样本、单样本和五样本示例作为提示词。实验结果及其详细分析将在结果部分呈现。

3.1 测试方法

我们的测试方法涉及利用一组固定的提示词和参数来评估LLMs。模型的推理参数,即temperature、top_k和top_p,分别固定为0.9、40和0.9,以确保一致性。我们使用零样本、单样本和五样本提示词来检验模型的零样本和小样本性能。零样本提示涉及向模型呈现一个新任务,不提供先验示例。单样本提示涉及向模型提供一个先验示例,而五样本提示则提供五个先验示例。这种提示词的差异有助于细致理解LLMs在不同条件和不同先验暴露程度下的运作方式。

零样本提示词

系统:您是一位胸部放射科医生,根据给定的胸部X光报告“发现”部分,识别主要发现和诊断或印象,该部分详细描述了放射科医生对胸部X光图像的评估。请确保您的回答简洁,并且不超过“发现”部分的长度。基于给定的胸部X光报告中的“发现”和给定的“印象”,主要发现和诊断或印象是什么:

单样本提示词

系统:您是一位胸部放射科医生,根据给定的胸部X光报告“发现”部分,识别主要发现和诊断或印象...

以下是一个例子:

MIMIC
发现:由于血管充血,纵隔有间隔性增宽。此外,出现了新的双侧间质性水肿。可能的左侧胸腔积液和肺不张使左侧心缘和膈面轮廓比前一天更加模糊。小的右侧胸腔积液和基底段肺不张未见变化。无气胸。支持和留置管线未见变化且位置正常。
回答:轻度急性充血性心力衰竭。

OPENI
发现:心脏大小和肺血管纹理正常。右侧有少量胸腔积液。肺门下方间质纹理增粗,可能代表支气管血管束聚集。左侧少量胸腔积液。无气胸。
回答:双侧少量胸腔积液及右侧肺门下方浸润与支气管血管束聚集鉴别。

图1: 实验中使用的零样本和单样本提示词。

图2: 实验中使用的五样本提示词。

3.2 模型选择

考虑到资源限制和模型比较的一致性需求,我们的评估特别关注参数大约在70亿左右的大型语言模型(LLMs)。选择这个参数规模主要基于两个考虑。首先,这个规模的模型在计算效率和模型性能之间取得了平衡。它们允许更快的推理,使得在实际时间范围内对完整测试数据集进行彻底评估成为可能。其次,这个参数规模在不同类型的LLMs中具有良好的代表性,允许在研究中纳入广泛而多样的模型。

对于开源模型,我们直接从其官方的GitHub仓库获取必要的代码和模型参数。这些仓库提供了全面的文档和社区支持,确保模型能够被正确实现和评估。

对于商业可用模型,例如Sensenova、ChatGPT、GPT-4、PaLM2和Anthropic Claude2,我们使用它们各自的应用编程接口(APIs)。这些API提供了一种结构化、标准化的方式与模型交互,使我们能够输入预定的提示词和参数,并以一致可靠的方式接收模型输出。

模型摘要:

  1. 华佗GPT 是由香港中文大学(深圳)大数据研究院开发的语言模型。华佗GPT-7B在百川-7B语料上训练,而华佗GPT-13B基于Ziya-LLaMA-13B-Pretrain-v1。华佗GPT的优势在于其整合了真实世界的医疗数据和ChatGPT信息丰富的基础。这使得华佗GPT能够在医疗咨询场景中提供详细的诊断和建议,类似于医生的方法[47]。华佗GPT有两个版本:华佗GPT-7B和华佗GPT-13B。在我们的实验中,我们使用了华佗GPT-7B版本。

  2. 骆驼 是由研究人员陈启源、李璐璐和冷子航开发和维护的中文语言模型。骆驼是通过LoRA技术在中文语料上对LLaMA进行微调的,在中文推理方面表现良好[92]。骆驼有三个版本:Luotuo-lora-7b-0.1、Luotuo-lora-7b-0.3和luotuo-lora-7b-0.9。实验中使用了Luotuo-lora-7b-0.3。

  3. Ziya-LLaMA[93] 表示基于LLaMA的双语预训练语言模型。它是开源通用大模型系列的一员,由IDEA研究院认知计算与自然语言研究中心(CCNL)推出。Ziya-LLaMA拥有卓越的多功能性,在包括翻译、编程、文本分类、信息提取、摘要、文案、常识问答和数学计算等广泛任务中表现出色。其全面的训练过程包括三个阶段:大规模持续预训练、多任务监督微调和人类反馈学习。Ziya有四个版本:Ziya-LLaMA-13B-v1.1、Ziya-LLaMA-13B-v1、Ziya-LLaMA-7B-Reward和Ziya-LLaMA-13B-Pretrain-v1。在本研究中,我们研究了Ziya-LLaMA-13B-v1。

  4. 余烟-对话 余烟-对话[94] 是网易伏羲AI实验室通过在一个高质量的大型多轮对话数据集上对余烟-11B进行微调而开发的中文对话模型。它在高质量的大型中文小说数据集上训练,具有非常强大的对话生成能力。余烟-对话只有一个版本,即余烟-对话。因此,我们在实验中使用它。

  5. 本草 本草[95] 是由哈尔滨工业大学社会计算与信息检索研究中心(SCIR)开发的基于LLaMA-7B模型的医疗语言模型。它经过了中文医学指令微调和指令调优。他们通过医学知识图谱和GPT3.5 API构建了一个中文医学指令数据集,并在此基础上进一步微调模型,提高了LLaMA在医疗领域的问答效果。本草有四个版本:LLaMA-med、LLaMA-literature、Alpaca-med、Alpaca-all-data。这里,我们使用LLaMA-med(本草)进行比较。

  6. XrayGLM Xray-GLM[96] 是由澳门理工大学开发的视觉语言模型。它基于VisualGLM-6B,并在翻译成中文的MIMIC-CXR和OpenI数据集上进行了微调。它在胸部X光视觉问答方面有很强能力。这里,我们使用最新版本的Xray-GLM进行比较。

  7. ChatGLM-Med ChatGLM-Med [75] 是由哈尔滨工业大学社会计算与信息检索研究中心(SCIR)开发的语言模型。它基于ChatGLM-6B,并经过了中文医学指令微调和指令调优。他们通过医学知识图谱和GPT3.5 API构建了一个中文医学指令数据集,并在此基础上,基于ChatGLM-6B的指令微调了模型,提高了ChatGLM在医疗领域的问答效果。这里,我们选择了最新版本的ChatGLM-Med模型用于比较。

  8. ChatGPT/GPT4 ChatGPT和GPT4都是由OpenAI开发的具有高度影响力的大型语言模型。ChatGPT的全称是gpt-3.5-turbo,它是在gpt2和gpt3的基础上开发的。ChatGPT的训练过程主要参考了instructGPT [74],ChatGPT是一个改进的instructGPT。与GPT-3[9]的主要区别在于新增了名为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)的技术[97]。这种训练范式增强了对模型输出的人为调节,并使得结果更易于理解排序。ChatGPT具有很强的语言理解能力,能够处理各种语言表达和查询。ChatGPT拥有广泛的知识库,可以回答各种常见问题并提供有用信息。GPT-4是GPT-3的后继者,因此在某些方面可能能力更强。在我们的实验中,我们使用了ChatGPT和GPT4。

  9. ChatGLM2/ChatGLM ChatGLM2是由清华大学开发的大型语言模型,在ChatGLM的基础上使用GLM框架[73]开发而成。ChatGLM2具有更强大的性能,可以处理更长的上下文,并以更开放的协议进行更高效的推理。更重要的是,ChatGLM2是一个优秀的双语预训练模型[98]。ChatGLM2根据模式指令集的大小有许多版本。本工作主要测试了ChatGLM2-6B和ChatGLM-6B。

  10. 岐黄GPT 岐黄GPT [99] 是由浙江大学开发的模型。它使用了岐黄医学知识库构建的中文医学指令数据集,并在此基础上对Chinese-LLaMA-Plus-7B、CaMA-13B和ChatGLM-6B模型进行了指令微调。岐黄GPT在中文医疗场景下效果优异,在回答问题方面比ChatGLM-6B更准确。根据指令微调的不同模型对象,岐黄GPT有三种类型[100]:岐黄-Chinese-LLaMA-7B、岐黄-ChatGLM-6B和岐黄-CaMA-13B。在本工作中,我们主要测试了岐黄-Chinese-LLaMA-7B。

  11. MOSS MOSS-MOON-003是开源插件增强双语(即中文和英文)对话语言模型MOSS的第三个版本,具体从MOSS-MOON-001到MOSS-MOON-003,由复旦大学OpenLMLab开发[69]。MOSS-MOON-003-sft是在基础模型MOSS-MOON-003-base上,使用约110万轮多轮对话数据进行监督微调得到的。MOSS-MOON-003的优势在于,由于其基础模型(即MOSS-MOON-003-base在7000亿英文、中文和代码词元上预训练)、在多轮插件增强对话数据上的微调以及进一步的偏好感知训练,它可以遵循双语多轮对话、拒绝不合适的请求并使用不同的插件。有10个可用版本:MOSS-MOON-003-base、MOSS-MOON-003-sft、MOSS-MOON-003-sft-plugin、MOSS-MOON-003-sft-int4、MOSS-MOON-003-sft-int8、MOSS-MOON-003-sft-plugin-int4、MOSS-MOON-003-sft-plugin-int8、MOSS-MOON-003-pm、MOSS-MOON-003和MOSS-MOON-003-plugin。在我们的实验中,我们使用了MOSS-MOON-003-sft版本。

  12. ChatFlow ChatFlow [101] 是林里项目团队开发的一个全参数化训练模型,建立在LLaMa和Falcon的基础上,基于TencentPre-train预训练框架[102]和大规模中文科学文献数据集[103]。通过利用中英平行增量预训练,它将语言能力从英文迁移到中文。ChatFlow的关键优势在于它解决了开源模型Falcon和LLaMa中中文理解和生成能力较弱的问题。它显著提高了中文文本的编码和生成效率。ChatFlow有两个版本,即ChatFlow-7B和ChatFlow-13B。在我们的实验中,我们使用了ChatFlow-7B版本。

  13. CPM-Bee CPM-Bee [104] 是基于OpenBMB的大型模型系统生态,也是面壁团队自研的模型。它是一个完全开源、可商用的中英双语基础模型,也是通过CPM-Live训练流程实现的第二个里程碑。CPM-Bee采用Transformer自回归架构,参数规模达百亿级别,在万亿词元规模的庞大语料上预训练,具有优异的基础能力。CPM-Bee有四个版本:CPM-Bee-1B、CPM-Bee-2B、CPM-Bee-5B、CPM-Bee-10B。在本实验中,我们测试了CPM-Bee-5B(CPM-Bee)的性能。

  14. PULSE PULSE模型[105]是在OpenMEDLab平台上开发的大规模语言模型。它基于OpenChina LLaMA 13B模型,并进一步使用来自医疗和通用领域的约4,000,000条SFT数据进行了微调。PULSE支持医疗领域的多种自然语言处理任务,包括健康教育、医师考试题、报告解读、病历结构化和模拟诊疗。PULSE有两个版本,PULSE_7b和PULSE_14b。在本实验中,我们测试了PULSE_7b版本。

  15. 百川 百川,由百川智能开发,是基于Transformer架构的大型预训练模型。百川-7B模型包含70亿个参数,在大约1.2万亿个词元上训练,采用了与LLaMa相同的模型设计。随后,他们进一步开发了百川-13B模型,其规模更大,训练数据更多[106]。百川模型的关键优势在于其使用了一种基于自动学习的数据加权策略来调整训练期间的数据分布,从而产生一个支持中文和英文的语言模型。它在各种数据集上展现了强大的语言能力和逻辑推理技能。开发了两个版本的百川模型:百川-7B和百川-13B。在我们的实验中,我们使用了百川-7B版本。

  16. AtomGPT AtomGPT [107],由AtomEcho开发,是基于LLaMA [108]模型架构的大型语言模型。AtomGPT使用大量中英文数据和代码进行训练,包括大量公共和非公共数据集。开发者使用这种方法来提高模型性能。AtomGPT目前有四个版本:AtomGPT_8k、AtomGPT_14k、AtomGPT_28k、AtomGPT_56k。在本实验中,我们选择AtomGPT_8k进行测试。

  17. ChatYuan ChatYuan [109] large v2是一个用于对话的开源大型语言模型,支持中文和英文,采用ChatGPT风格。它由ClueAI发布。ChatYuan large v2可以在允许用户在消费级显卡、PC甚至手机上操作的简单设备上实现高质量结果。它对微调数据、人类反馈强化学习和思维链进行了优化。同时,与其前一个版本相比,该模型在许多语言能力上得到了优化,例如更好地掌握中英文、生成代码等。ChatYuan有三个版本:ChatYuan-7B、ChatYuan-large-v1、ChatYuan-large-v2。在我们的实验中,我们测试了ChatYuan-large-v2。

  18. 扁鹊2.0 扁鹊[110]是一个通过指令和多个轮次问答对话相结合进行微调的医疗对话大模型。华南理工大学基于扁鹊语料库,选择ChatGLM-6B作为初始化模型,经过指令微调训练后得到扁鹊。扁鹊2.0扩展了药品说明书指令、医学百科知识指令和ChatGPT蒸馏指令等数据,增强了模型的建议和知识查询能力。通过使用“提问链”,该模型可以更贴近生活,并提高提问技巧,这与大多数语言模型不同。它有两个版本:扁鹊1.0和扁鹊2.0。在我们的实验中,我们测试了扁鹊2.0。

  19. AquilaChat AquilaChat [111] 是由北京智源人工智能研究院开发的语言模型。AquilaChat是一个基于Aquila进行微调和强化学习的SFT模型。AquilaChat对话模型支持流畅的文本对话和多种语言类生成任务。通过定义可扩展的特殊指令规范,AquilaChat可以调用其他模型和工具,并且易于扩展其功能。AquilaChat有两个版本:AquilaChat-7B和AquilaChat-33B。在我们的实验中,我们使用了AquilaChat-7B版本。

  20. Aquila Aquila [112] 是由北京智源人工智能研究院开发的语言模型。Aquila-7B是一个拥有70亿参数的基础模型。Aquila基础模型在技术上继承了GPT-3、LLaMA等的架构设计优势,替换了一批更高效的低层算子实现,重新设计和实现了中英文双语分词器,升级了BMTrain并行训练方法,与Magtron+DeepSpeed Zero-2相比,实现了近8倍的训练效率。Aquila有两个版本:Aquila-7B和Aquila-33B。在我们的实验中,我们使用了Aquila-7B版本。

  21. Chinese-Alpaca-Plus Chinese-Alpaca-Plus [100] 是由崔一鸣等人开发的语言模型。Chinese-Alpaca-Plus是一个基于LLaMA的语言模型。Chinese-Alpaca-Plus通过向现有LLaMA词汇表中添加20000个中文词元,提高了其对中文的编码效率和语义理解能力[100]。Chinese-Alpaca-Plus有三个版本:Chinese-Alpaca-Plus-7B、Chinese-Alpaca-Plus-13B和Chinese-Alpaca-Plus-33B。在我们的实验中,我们使用了Chinese-Alpaca-Plus-7B版本。

  22. TigerBot Tigerbot-7b-sft-v1 [113] 是由Tigerbot公司开发的语言模型。TigerBot-7b-sft-v1是一个多语言、多任务的大规模语言模型。Tigerbot-7b-sft-v1是一个经过了3个月封闭开发和超过3000次实验迭代的MVP版本。在功能上,Tigerbot-7b-sft-v1已经包含了生成和理解大部分类别内容的能力,具体包括几个主要部分:内容生成、图像生成、开放域问答和长文本解读。Tigerbot-7b-sft有两个版本:Tigerbot-7b-sft-v1和Tigerbot-7b-sft-v2。在我们的实验中,我们使用了tigerbot-7b-sft-v1版本。

  23. XrayPULSE XrayPULSE [114] 是PULSE的扩展,由OpenMEDLab开发。OpenMEDLab利用MedCLIP作为视觉编码器,并使用Q-former (BLIP2)及其后的简单线性变换作为适配器,将图像注入PULSE。为了通过适配器对齐冻结的视觉编码器和LLM,OpenMEDLab从放射学数据中生成了中文版的Xray-Report配对数据。通过扩展PULSE,XrayPULSE在中文版Xray-Report配对数据集上进行了微调,旨在作为一个生物医学多模态对话助手。其基础模型是PULSE,我们通过修改Checkpoint文件对XrayPULSE进行了测试。

  24. DoctorGLM DoctorGLM [115] 是首个中文诊断大语言模型(于2023年4月3日发布),由上海科技大学开发[115]。它使用真实世界在线诊疗对话对ChatGLM-6B进行了微调。DoctorGLM有多个更新和两种不同的参数高效微调设置(p-tuning和LoRA)。在我们的实验中,我们使用了DoctorGLM-5-22 p-tuning版本。

  25. Robin-7B-medical Robin-medical (LMFlow) [116] 是一个提供完整大基础模型微调工作流的工具包,旨在支持有限计算资源下的个性化训练。它由香港科技大学的Diao等人开发。他们提供了一系列基于LLama模型的LoRA模型,称为Robin-medical,专门在PubMedQA和MedMCQA数据集上进行了微调。LMFlow的优势在于它引入了一个可扩展的轻量级工具包,以简化通用大基础模型的微调和推理。这使得人们能够微调基础模型,以缓解当前大多数现有模型在专业任务应用上存在的主要不足。Robin-medical有7B、13B、33B和65B版本。我们在实验中测试了7B版本。

  26. PaLM2 PaLM2是由Google开发的大型语言模型。PaLM 2是一个基于树状结构的语言模型,它利用语言中的上下文和语法规则,使模型对文本信息的理解更加精细、准确和全面。与传统的基于序列的模型(如GPT)不同,PaLM2使用了一些比传统方法更受欢迎的新方法,如Tree-LSTM [117]、Bert [118]等。与PaLM相比,PaLM2擅长包括代码和数学、分类和问答、翻译和多语言在内的复杂推理任务。它也被用于其他最先进的模型,如Med-PaLM2和Sec-PaLM。我们在实验中测试了PaLM2版本。

  27. SenseNova SenseNova [119] 是由商汤科技开发的大型语言模型。通过数据、模型训练和部署三位一体的飞轮,它可以提供各种大模型和能力,如自然语言、内容生成、自动数据标注和定制模型训练。基于商汤科技之前NLP工作的积累,SenseNova在国内大语言模型中表现仍然良好。基于“日日新”大模型体系,商汤科技还开发了一系列生成式AI模型和应用,包括秒画SenseMirage、如影SenseAvatar、琼宇SenseSpace和格物SenseThings。我们主要在本工作中测试了SenseNova。

  28. Anthropic Claude2 Claude2是由Anthropic开发的大型语言模型,其特点是乐于助人和值得信赖。它是在Claude1.3的基础上开发的。Anthropic使用他们称为“宪法AI”[120]的技术框架来实现语言模型的无害化处理。Claude2比GPT4具有更强大的文本处理功能,可以处理更大规模的文本,并具有更强的上下文理解能力和中文理解能力。Claude目前有两个版本,功能强大的Claude,擅长从复杂对话和创意内容生成到详细指令遵循的广泛任务,以及更快、更经济的Claude Instant,它也能处理休闲对话、文本分析、摘要和文档问答。我们为本工作测试了最新版本的Anthropic Claude2。

  29. BayLing BayLing [121] 是一个具备高级语言对齐能力的指令遵循大语言模型。它来自中国科学院计算技术研究所自然语言处理组。BayLing可以轻松部署在消费级GPU上。它在英文/中文生成、指令遵循和多轮交互方面表现出卓越的能力。BayLing有三个版本:BayLing-7B-v1.0、BayLing-13B-v1.0、BayLing-13B-v1.1。在我们的实验中,我们测试了BayLing-7B。

3.3 统一测试提示词

为了在不同LLMs之间进行公平和公正的比较,我们在选择和使用测试提示词时采用统一的方法。在所有模型和条件下都使用相同的提示词,无论是零样本、单样本还是五样本场景。

在零样本评估中,向模型呈现新任务,不提供先验示例。对于单样本场景,我们为模型提供一个先验示例。同时,在五样本场景中,向模型提供五个示例以供学习。这些场景旨在模拟现实世界中的使用条件,即模型获得有限数量的示例,并期望从中进行泛化。

图3: 主要世界范围内的LLMs及其关系。

表1:对比LLMs的测试结果

3.4 数据集

我们的研究使用了两个全面且公开可用的数据集,MIMIC-CXR和OpenI数据集。这些数据集用于测试各种LLMs在生成放射学文本报告方面的性能和有效性。

在我们的研究中,我们使用这些数据集来评估LLMs的能力。我们专注于每份报告的“发现”和“印象”部分,因为它们提供了关于影像发现和放射科医生解读的全面而详细的文本信息。

3.4.1 MIMIC-CXR 数据集

MIMIC-CXR数据集是一个庞大的去标识化胸部X光片(CXRs)存储库,附有相应的放射学报告。该数据集包含2001年至2012年间在Beth Israel Deaconess医疗中心住院的超过60,000名患者的医疗数据。MIMIC-CXR数据集中的放射学报告通常包括两个部分:“发现”和“印象”。“发现”部分详细描述影像观察结果,而“印象”部分则对这些观察结果提供概括性解读。

3.4.2 OpenI 数据集

OpenI数据集是我们研究中使用的另一个重要资源。它是一个免费的存储库,包含与各自报告配对的放射学图像。该数据集提供了一个独立的外部平台,用于验证我们LLMs在不同数据源上的性能和泛化能力。

我们遵循现有文献的方法,将数据集随机划分为用于测试目的的不同部分。这种划分产生了2400份、292份和576份报告的子集,用于各种测试场景。

4 结果

本节展示了各种大型语言模型(LLMs)在两个广泛数据集OpenI和MIMIC-CXR上的评估结果。模型的性能在三种不同的样本设置下进行评估:零样本、单样本和五样本。模型性能使用三个关键指标进行评估:Recall@1 (R-1)、Recall@2 (R-2) 和 Recall@L (R-L)。

4.1 OpenI数据集结果

在OpenI数据集上,Anthropic Claude2在零样本设置中表现出色,取得了R-1分数0.2372,R-2分数0.1259和R-L分数0.2193。这些结果显著超过了同设置下的其他模型。在单样本场景中,获得最高R-1分数的模型是BayLing-7B,得分为0.1268,紧随其后的是Luotuo-lora-7B-0.3和Ziya-LLaMA-13B-v1,得分分别为0.152和0.1502。然而,BayLing-7B在五样本设置中表现突出,在所有指标上均取得了最高分,R-1分数为0.4506,R-2分数为0.3452,R-L分数为0.4436。

4.2 MIMIC-CXR数据集结果

在MIMIC-CXR数据集上的评估显示,Anthropic Claude2模型在零样本设置中保持了其优越性能,取得了R-1分数0.3177,R-2分数0.153和R-L分数0.256。PaLM2在单样本设置中成为领先模型,提供了R-1分数0.2711,R-2分数0.1446和R-L分数0.2251。在五样本场景中,BayLing-7B模型继续优于其他模型,取得了最高的R-1分数0.2901,R-2分数0.1722和R-L分数0.2747。

然而,一些模型如AtomGPT_8k在所有样本设置和两个数据集上的性能都相当低。例如,AtomGPT_8k在OpenI零样本设置中的得分极低,R-1分数仅为0.0287。它在其他样本设置和MIMIC-CXR数据集中得分也持续偏低。

总之,本次评估强调了不同LLMs能力上的显著多样性,强调了为特定任务谨慎选择模型的必要性。不同样本条件下性能的差异对未来研究和应用中针对特定任务的LLM选择具有重要意义。

5 讨论

5.1 影响与见解

本研究对世界范围内的LLMs进行了最详尽的评估之一,主要关注它们在放射学领域中的应用。使用广泛的放射学报告数据集对这些模型进行细致评估,并将它们与成熟的全球领先模型进行比较,为了解它们的能力、局限性以及在医疗保健领域的潜在作用提供了重要见解。

我们的研究结果强调,多个LLMs在解读放射学报告方面表现相当。这种一致性表明了它们先进的自然语言理解技能,并突显了它们在改善放射学实践方面的潜在效用,它们可以帮助实现放射学图像解读的自动化,辅助初步诊断,从而为医疗保健专业人员腾出时间。这在放射科医生资源有限的地区,或者在病例量大、时间紧迫构成重大挑战的医疗场景中尤为有益。

5.2 模型间差异与意义

虽然世界范围内的模型性能表现出广泛的趋同性,但我们的结果也凸显了不同模型之间的一些差异。这种优势和劣势的差异表明,为特定应用选择LLM应取决于该任务的具体要求。因此,更深入地理解这些模型(我们的研究对此有所贡献)对于它们在该领域的有效部署至关重要。

5.3 评估指标的意义

我们研究中采用的评估指标是Rouge分数,这是一种基于N-gram的方法,本质上衡量模型与设定答案的符合程度。GPT-4,一个被广泛认可的强大模型,在Rouge分数上既未超过其对应模型ChatGPT,也未超越其他模型。这种差异引发了对Rouge分数作为放射学知识衡量标准意义的质疑。例如,BayLing模型倾向于产生简洁的答案,尽管简短,但可能具有很高的质量和准确性。相反,GPT-4可能更冗长,考虑问题更全面,显示出对输入有一定程度的不信任。结果的差异突显了需要仔细解释评估分数,考虑到每个模型的独特特征。

5.4 模型规模与性能

我们的分析表明,为了在这项特定任务中实现高性能,并不严格需要大型模型。具有70亿参数的模型可以产生令人印象深刻的结果,这表明我们可能正处于由这些更易于获取、更轻量级模型驱动的第四次工业革命的边缘。这促使我们重新思考模型性能与模型规模密切相关的观点。事实上,较小的模型也表现出了强大的能力,这引发了一个问题:智能是否真正源于参数数量和数据积累。

5.5 多模态LLMs:下一个前沿

能够管理文本和图像等多种输入形式的多模态LLMs的出现,为未来的研究创造了诱人的前景。评估这些模型直接解读放射学图像(除了文本报告之外)的能力,可能会彻底改变放射学实践。这些多模态模型可以在疾病检测与诊断、治疗计划和患者监测等领域找到用武之地。

6 结论

在这项综合性研究中,我们严格评估了32个重要的世界范围内LLMs在医疗保健和放射学领域的性能,其中包括全球领先模型如ChatGPT、GPT-4、PaLM2、Claude2,以及一套来自其他地区(如中国)开发的稳健LLMs。此次探索的总体目标是在解读放射学报告的背景下对这些模型进行基准测试,从而细致地理解它们多样化的能力、优势和劣势。我们的研究结果证实了许多中国LLMs相较于其全球同行具有竞争力的性能,强调了它们在医疗应用(尤其是放射学领域内)尚未开发的潜力。这表明了一种趋势,即未来这些多语言且多样化的LLMs将为全球医疗保健服务体系的提升做出贡献。

展望未来,我们大规模研究的见解为进一步的探索性研究提供了引人注目的基础。将这些LLMs扩展到不同的医学专业领域以及开发多模态LLMs方面存在巨大的空间,后者可以处理复杂多样的数据类型,以提供对患者健康状况更全面的理解。然而,在我们驾驭这个不断发展的LLMs格局时,必须充分考虑到它们的有效应用和合乎道德的部署。总之,我们的研究希望能催化进一步的探索和讨论,展望一个LLMs在医疗保健提供中发挥重要作用并为提升全球患者护理标准做出贡献的时代。

附录

表2: Ziya-LLaMA-13B-v1

发现

  1. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  2. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  3. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  4. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

  5. 双肺清晰。心脏和肺血管纹理正常。胸膜腔清晰。纵隔轮廓正常。无气胸。

印象

  1. 无急性发现

  2. 双侧肺野透亮度轻度增高,以肺底最为明显。发现无特异性,可能代表亚段性肺不张 vs. 轻度间质性水肿 vs. 不典型感染性病变。

  3. 与之前相比无显著变化。双侧肺底肺实变可能代表感染或轻度水肿。

  4. 无急性心肺疾病。

  5. 无急性心肺疾病


表3: MOSS-MOON-003-sft

发现

  1. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  2. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  3. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  4. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

  5. 双肺清晰。心脏和肺血管纹理正常。胸膜腔清晰。纵隔轮廓正常。无气胸。

印象

  1. 无急性发现

  2. 双侧肺野透亮度轻度增高,以肺底最为明显。发现无特异性,可能代表亚段性肺不张 vs. 轻度间质性水肿 vs. 不典型感染性病变。

  3. 与之前相比无显著变化。双侧肺底肺实变可能代表感染或轻度水肿。

  4. 无急性心肺疾病。

  5. 无急性心肺疾病


表4: BayLing-7B

发现

  1. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  2. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  3. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  4. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

  5. 双肺清晰。心脏和肺血管纹理正常。胸膜腔清晰。纵隔轮廓正常。无气胸。

印象

  1. 无急性心肺异常。

  2. 轻度慢性阻塞性肺疾病 (COPD)。

  3. 慢性阻塞性肺疾病。

  4. 无急性心肺异常。

  5. 无急性心肺异常。


表5: AquilaChat-7b

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 无急性心肺病变。

  2. 无急性心肺病变。

  3. 肺气肿性疾病,除了一口热血之外,还有内脏器官出血 (注:此处原文为中文夹杂,直译保留

  4. 常规胸部X光片显示心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前研究相比无明显差异。无胸腔积液或气胸。无急性骨质异常。

  5. 无急性心肺病变。

33


表6: Anthropic Claude2

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 印象:无急性心肺异常。

  2. 印象:无急性心肺异常。

  3. 印象:双侧肺底肺野透亮度增高,以肺底最为明显。无气胸或胸腔积液。

  4. 印象:心脏增大稳定。双侧肺底肺实变持续存在,无明显变化。

  5. 基于给定的发现,印象是:心脏轮廓轻度增大。无急性心肺异常。


表7: ChatGPT

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 无急性心肺异常。

  2. 无急性心肺异常。

  3. 双侧肺底肺野透亮度增高,无气胸或胸腔积液。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显变化。无胸腔积液或气胸。无急性骨质异常。

  5. 主要发现:心脏大小轻度增大,胸主动脉轻度迁曲。无气胸、胸腔积液或局灶性肺实变。诊断或印象:心脏轻度增大,胸主动脉轻度迁曲,无急性心肺异常。


表8: GPT-4

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 主要发现是肩锁关节炎。诊断或印象是无急性术前发现。

  2. 主要发现是肩锁关节炎,无急性术前发现。

  3. 主要发现是双侧肺野透亮度轻度增高,以肺底最为明显。无气胸或胸腔积液证据。

  4. 主要发现是心脏轮廓增大,双侧下叶肺实变持续存在,无胸腔积液、气胸或急性骨质异常迹象。诊断或印象是心脏增大稳定和双侧下叶肺实变持续存在。

  5. 主要发现是心脏大小轻度增大,胸主动脉轻度迁曲,肺血管纹理正常。无气胸、胸腔积液或局灶性肺实变证据。印象或诊断应为轻度心脏增大和胸主动脉轻度迁曲,无急性心肺异常。


表9: ChatGLM2-6B

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 无异常发现。基于给定的发现和印象,胸部X光报告的主要发现和诊断或印象是:无急性术前发现。无急性心肺异常。胸部。肺间质水肿和肺静脉高压正在消退。双侧肺底肺实变,左侧重于右侧。双侧胸腔积液。

  2. 无异常。基于给定的发现和印象,胸部X光报告的主要发现和诊断或印象是:无急性术前发现。无急性心肺异常。胸部。肺间质水肿和肺静脉高压正在消退。双侧肺底肺实变,左侧重于右侧。双侧胸腔积液。无异常。

  3. 肺野透亮度增高。

  4. 心脏轮廓增大伴下叶肺实变持续存在。无急性骨质异常。

  5. 未见异常。基于给定的发现和印象,胸部X光报告的主要发现和诊断或印象是: 1. 无急性术前发现。 2. 无急性心肺异常。 3. 胸部。肺间质水肿和肺静脉高压正在消退。 4. 双侧肺底肺实变,左侧重于右侧。双侧胸腔积液。 5. 未见异常。


表10: PaLM2

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏纵隔轮廓在正常范围内。双肺清晰。无局灶性实变、胸腔积液或气胸证据。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. "主要发现是:

    • 心脏轮廓增大 - 双侧下叶肺实变 - 无胸腔积液或气胸
      诊断或印象是:

    • 心脏增大稳定 - 双侧下叶肺实变持续存在,与之前相比无明显加重。"

  5. 心脏纵隔轮廓在正常范围内。双肺清晰。无局灶性实变、积液或气胸。

38


表11: SenseNova

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 根据所提供的信息,放射科医生未发现显著异常。文本说明“双肺清晰,扩张良好”,心脏和纵隔表现正常。基于这些观察,该患者胸部X光结果为阴性。

  2. 印象:未见明显异常。

  3. "基于提供的文本和印象,以下是我对主要发现和诊断/印象的解读: 发现:双侧肺野网状结节状密度轻度增高,伴轻度支气管扩张。 印象:轻度慢性阻塞性肺疾病(COPD)伴支气管扩张。请注意,此解读仅为提供示例回答格式。应作为指导,而非用于明确诊断任何特定病症。如需医疗建议或治疗,请咨询医生。"

  4. "根据提供的Finding和Impression,主要发现和诊断或印象如下: 主要发现:心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显变化。无胸腔积液或气胸。无急性骨质异常。 诊断或印象:双侧支气管扩张伴心力衰竭稳定。"

  5. 印象:未见明显变化。

表12: Baichuan-7B

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 无急性心肺异常。

  2. 无急性心肺异常。

  3. 双侧肺底肺野透亮度增高,可能为支气管血管束聚集。

  4. 心脏增大稳定。双侧肺底肺实变持续存在,无显著变化。

  5. 心脏大小轻度增大,胸主动脉轻度迁曲。无气胸、胸腔积液或局灶性肺实变。


表13: DoctorGLM

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 无急性心肺异常。

  2. 无急性心肺异常。

  3. 双侧肺底肺野透亮度增高,无气胸或胸腔积液。

  4. 心脏增大稳定。双侧肺底肺实变持续存在,无明显变化。

  5. 主要发现:心脏大小轻度增大,胸主动脉轻度迁曲。无气胸、胸腔积液或局灶性肺实变。印象:无急性心肺异常。


表14: Robin-7B-medical

发现

  1. 双肺清晰,扩张良好。心脏和纵隔正常。

  2. 心脏大小在正常范围内。无肺泡实变,无胸腔积液或肺水肿迹象。无气胸。

  3. 双侧肺野透亮度轻度增高,以肺底最为明显。心脏大小在正常范围内。无气胸或胸腔积液。骨质结构大体完整。

  4. 心脏轮廓稳定增大。双侧下叶肺实变持续存在,与之前相比无明显加重。无胸腔积液或气胸。无急性骨质异常。

  5. 摄胸部正侧位片。心脏大小在正常上限或轻度增大。胸主动脉轻度迁曲。肺血管纹理在正常范围内。无气胸、胸腔积液或局灶性肺实变。

印象

  1. 无异常发现。

  2. 无急性心肺异常。

  3. 双侧肺底肺野透亮度增高,可能代表感染或轻度水肿。

  4. 心脏增大稳定。双侧肺底肺实变持续存在。

  5. 无急性心肺疾病。


讨论(续附录示例)

附录中的表格展示了部分模型(如Ziya-LLaMA-13B-v1, MOSS, BayLing等)在示例输入下的具体输出。这提供了对模型生成文本质量的定性观察,补充了正文中的定量Rouge分数分析。例如,可以看到不同模型在生成"印象"时,在简洁性、术语准确性和格式规范性方面存在差异。一些模型(如ChatGPT、GPT-4)倾向于生成结构更完整、表述更临床化的印象,而另一些模型可能输出更简短或有时包含非标准表述(如AquilaChat-7b示例中的中文混杂)。这些定性观察有助于理解定量分数背后的原因,并为模型在真实临床环境中的适用性提供更细致的判断。

局限性

本研究存在一些局限性。首先,评估主要基于Rouge分数,该分数衡量的是与参考文本的表面相似性,可能无法完全捕捉临床准确性、相关性和安全性。其次,测试的提示词和参数设置是固定的,可能无法反映所有潜在的使用场景或最优配置。第三,评估聚焦于单一的文本生成任务(从发现生成印象),虽然重要,但未能涵盖放射学NLP的所有方面,如命名实体识别、关系提取或报告分类。最后,研究仅评估了约70亿参数的模型,虽然具有代表性,但未能涵盖更大或更小规模模型的全部谱系。

未来工作

未来的工作可以在多个方向展开:

  1. 评估指标:引入更贴近临床实践的评估指标,如由放射科医生进行的相关性、准确性和有用性的人工评估,或使用医学知识库进行事实一致性检查。

  2. 任务扩展:将评估扩展到更广泛的放射学NLP任务,包括多模态任务(如图像报告生成、视觉问答)、报告结构化、疾病分类和临床决策支持。

  3. 模型范围:评估更大规模(如千亿参数)或更小规模(如十亿参数以下)的LLMs,以及更多专为医疗定制或新近发布的模型。

  4. 提示工程与微调:系统研究提示工程(如思维链、角色设定)和领域适应性微调对模型性能的影响。

  5. 安全性与伦理性评估:深入评估模型输出在隐私、偏见、错误信息传播和医疗建议可靠性方面的潜在风险。

  6. 实际部署研究:开展在实际临床工作流程中集成和评估这些LLMs的试点研究,衡量其对效率、诊断准确性和医生满意度的影响。

总之,这项名为RadLLM的研究为理解当前世界范围内LLMs在放射学报告解读任务上的能力提供了一个全面的基准。研究结果表明,许多模型,包括来自其他地区的模型,已经具备了在该任务上竞争的性能,同时揭示了模型在大小、架构和训练数据上的多样性所带来的性能差异。这为放射科医生、AI研究人员和医疗技术开发者提供了宝贵的参考,以选择合适的工具并推动该领域向着更有效、可靠和符合伦理的AI辅助医疗方向发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值