详解Med-PaLM 2,基于PaLM 2的专家级医疗问答大语言模型

Google Research和DeepMind发布的Med-PaLM 2是基于PaLM 2的专家级医疗问答大语言模型。它利用LLM改进、医学领域微调和提示策略,在多项选择和长形式医疗问答中表现出色,接近或超过多个数据集的最新技术,答案质量也有显著提升,但仍需在验证、安全和伦理方面做进一步工作。

详解Med-PaLM 2,基于PaLM 2的专家级医疗问答大语言模型 - 知乎

目录

摘要:

1 介绍

2 相关工作

3 方法

3.1 数据集

3.2 建模

3.3 多项选择评估

3.4 重叠分析 (Overlap analysis )

3.5 长形式评估(Long-form evaluation )

4 结果

4.1 多项选择评估

4.2 长形式评估

5 讨论&结论等:

我的一些思考:

5月16日,Google Research和DeepMind发布了Med-PaLM 2,迈向专家级医疗问答的大语言模型(Towards Expert-Level Medical Question Answering with Large Language Models)。

论文地址:[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models (arxiv.org)

以下是我根据论文等整理的内容,相对于论文有所调整。

摘要:

最近的人工智能(AI)系统在围棋到蛋白质折叠等“大难题”中达到里程碑。与医生相当地检索医学知识、推理和回答医疗问题的能力长期被视为这样的一个大难题。

大型语言模型(LLM)催生了医疗问答的重大进步;Med PaLM是第一个超过美国医师执照考试(USMLE)样例问题“合格”分数的模型,在MedQA数据集上得分67.2%。不过,这项工作和其他类似的工作表明,和临床医生的答案相比,模型的答案仍有很大的提高空间。

这里我们提出Med-PaLM 2,它利用一系列LLM改进(PaLM 2)、医学领域微调和提示策略(包括一种新的集成精炼方法ensemble refifinement approach)来弥补这些差距。

Med-PaLM 2在MedQA数据集上得分达到86.5%,比Med-PaLM提高了19%以上,创下新的最新技术。我们还观察到性能接近或超过MedMCQA、PubMedQA和MMLU临床话题数据集的最新技术。

我们对1066个消费者医疗问题进行了详细的人工评估,根据临床应用相关的多个轴线进行两两比较。在九个与临床效用相关的轴线上,医生更喜欢Med-PaLM 2的答案(_p_<0.001)。我们还观察到与Med-PaLM相比,在新引入的240个长形式“对抗”问题数据集的每个评估轴上都有显著改进(_p_<0.001),以探究LLM的限制。

尽管进一步的研究是必要的,以验证这些模型在实际环境中的效果,但这些结果凸显了医疗问答朝着医生级性能的快速进步。

1 介绍

语言是健康和医学的核心,支撑着人与医疗服务提供者之间的互动。大型语言模型(LLM)的进步使得人工智能(AI)系统能够理解和使用语言进行交流,这有望带来更丰富的人与AI的交互和协作,特别是这些模型在多项选择研究基准测试中展示了令人印象深刻的能力。

在我们以前关于Med-PaLM的工作中,我们证明了医疗问答的全面基准测试、人工评估模型答案以及医疗领域的对齐策略的重要性。我们提出了MultiMedQA,一个涵盖医学考试、消费者健康和医学研究的医疗问答的多样化基准测试。我们提出了一个使医生和普通人能够详细评估模型答案的人工评估标准。我们的初始模型Flan-PaLM首次超过了美国医师执照考试(USMLE)样例问答MedQA数据集的合格分数。

然而,人工评估显示,需要进一步的工作来确保AI产出安全并与这个安全关键领域的人类价值观和期望对齐(这个过程通常称为“对齐”)。为了弥补这一差距,我们利用提示调整调优开发了Med-PaLM,与Flan-PaLM相比,它的医生评估质量大幅提高。不过,与医生相比,模型答案的质量仍存在很多缺点。而且,尽管得分很高,Med-PaLM在MultiMedQA的分数仍有提高的空间。

在这里,我们通过Med-PaLM 2弥补这些差距并进一步推进医学领域的LLM能力。我们使用一种改进的基础LLM(PaLM 2)、医疗领域专门的微调( medical domain-specifific fifinetuning)和一种新的提示策略(prompting strategy)开发了这个模型,这使医疗推理能力得到提高。如图1(左)所示,Med-PaLM 2在MedQA上的表现比Med-PaLM提高了19%以上。该模型的性能也接近或超过MedMCQA、PubMedQA和MMLU临床话题数据集的最新技术。

尽管这些基准测试是衡量LLM中编码知识的有用度量,但它们并不能捕捉模型在需要细致答案的问题上生成事实性和安全响应的能力,这在实际的医疗问答中很常见。我们通过运用我们以前发表的标准由医生和普通人进行评估来研究这一点。此外,我们提出两种额外的人工评估:

第一,对消费者医疗问题的模型和医生答案进行两两排名评估,涉及九个临床相关的轴线(clinically relevant axes);

第二,医生对模型在两个新引入的对抗测试数据集上的响应进行评估,旨在探究LLM的极限。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值