论文标题:《Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-World Multi-Turn Dialogue》
论文作者:Songhua Yang等
发表期刊:AAAl 2024
0、摘要部分
最近大型语言模型(LLMs)方面取得了显著进展,实现了对用户意图的理解和响应。然而,在某些专业领域,如中医,它们的表现仍然落后于一般用例。将中医纳入 LLM 依赖于单轮和蒸馏对话数据的监督式微调(SFT)。这些模型缺乏像医生一样的主动询问能力和多轮理解能力,并且不能将响应与专家的意图对齐。在这项工作中,引入了 仲景(Zhongjing),它是第一个基于 LLaMA 的中医学 LLM,从连续预训练、SFT 到从人类反馈中进行强化学习(RLHF)实施了一个完整的训练流水线。此外,该文构建了一个包含 70,000 段真实医患对话的多轮医学对话数据集 CMtMedQA,这大大提高了模型处理复杂对话和主动查询启动的能力。鉴于生物医学领域的独特特性,还定义了一套更精细的注释规则和评估标准。广泛的实验结果表明,仲景(Zhongjing) 在各种能力上优于基线,并在某些能力上达到或接近 ChatGPT 的性能,尽管只有后者的十分之一的参数量。消融研究也证明了每个组件的贡献:预训练增强了医学知识,而 RLHF 进一步提高了遵循指令的能力和安全性。
1、介绍部分
最近,随着 LLMs 的出现,例如 ChatGPT和 GPT-4,它们在理解并回答各种问题方面取得了重大进展,甚至在一系列一般领域中超越了人类。尽管开放 AI 仍然处于关闭状态,但开源社区迅速推出了性能优异的 LLMs,如LLaMA,Bloom,Falcon等。为了弥合中国适应性的差距,研究人员还引入了更强大的中文模型。然而,尽管这些通用语言模型在许多任务上表现出色,但由于缺乏领域专业知识,它们在特定专业领域的表现通常受到限制。生物医学领域因其复杂而专门的知识要求对成功开发语言模型具有高精度和安全性。尽管存在挑战,但医疗语言模型仍具有巨大的潜力,在诊断辅助、会诊、药物推荐等方面提供价值。在中医领域,已经提出了几种医疗语言模型。
然而,这些工作完全依赖于监督式微调(SFT)。韩等人(2021年)和周等人(2023年)指出,几乎所有知识都是在预训练期间学习到的,这是积累知识的关键阶段,而强化学习可以引导模型识别其能力边界并增强指令遵循能力。对SFT的过度依赖可能导致过度自信的一般化,模型本质上是在死记硬背答案回答问题,而不是理解并推理内在的知识。此外,以往的对话数据集主要关注单轮对话,忽视了真实医生-病人对话通常需要多轮交互,并且由医生经常发起询问以了解情况的过程。
为了解决这些限制,该文提出了仲景(Zhongjing),这是第一个基于LLaMA 的中国医学 LLM,并实现了从连续预训练、SFT到强化训练(RLHF)的整个流程。此外,还构建了一个基于真实医生患者对话的多轮中医疗对话数据集CMtMedQA,包含约7万个问答,覆盖了14个科室。它还包括许多主动询问语句来刺激模型。如下图所示,仅通过频繁的主动询问,才能给出更准确的医疗诊断:
具体来说,仲景(Zhongjing)模型构建分为三个阶段:①首先,收集大量真实的医学语料,并基于 Ziya-LLaMA 模型进行连续预训练,在下一个 SFT 阶段产生了一个具有医学基础的基础模型,引入四种类型的指令数据集来训练模型:单轮医疗对话数据、多轮医疗对话数据 (CMtMedQA)、自然语言处理任务数据以及通用对话数据。目的是增强模型的泛化能力和理解能力,并缓解灾难性遗忘问题;②在 RLHF 阶段,建立一套详细的注释规则,并邀请六位医学专家对模型生成的 20,000 句话进行排名。这些注释的数据用于根据之前的医学基础模型训练奖励模型;③使用近端策略优化 (PPO) 算法引导模型与专家医生的目标相一致。
经过广泛的训练和优化,成功地开发了中医知识图谱。利用之前提出的注释规则的扩展版本,使用GPT-4或人类专家评估了模型在三个能力维度和九种特定能力上的性能。实验结果表明,在所有能力维