论文链接:https://arxiv.org/pdf/2412.18925
github链接:https://github.com/FreedomIntelligence/HuatuoGPT-o1
亮点直击
首次利用可验证的医学问题和医学验证器在大语言模型(LLM)中推进医学复杂推理的工作。
针对可验证的医学问题,提出了一种两阶段的训练方法,结合搜索策略构建推理路径进行微调,并通过验证器反馈的强化学习(RL)进一步增强。
使用该方法,开发了HuatuoGPT-o1,这是第一个具备复杂推理能力的医学大语言模型。与开源的通用和医学专用基线相比,HuatuoGPT-o1表现出色。
实验表明,复杂推理对于解决医学问题是有效的,并且能够从强化学习的增强中获益。
总结速览
解决的问题
医学领域的推理能力尚未被充分探索,尽管其重要性与数学领域相似。医学推理的验证比数学更具挑战性,需要可靠的答案来满足高标准的医疗保健需求。
提出的方案
提出了一种两阶段的训练方法:
-
使用医学验证器指导搜索复杂推理轨迹,以微调大语言模型(LLM)。
-
应用基于验证器奖励的强化学习(RL)进一步增强复杂推理能力。
应用的技术
-
可验证的医学问题设计。
-
医学验证器用于检查模型输出的正确性。
-
两阶段训练方法结合微调和强化学习。
达到的效果
-
开发了HuatuoGPT-o1,一个具备复杂推理能力的医学LLM。
-
仅使用40K个可验证问题,HuatuoGPT-o1就超越了通用和医学专用基线。
-
实验表明,复杂推理提高了医学问题解决能力,并从RL中受益更多。
可验证的医疗问题
受到数学问题的启发,这些问题通过最终结果验证了解决过程,我们旨在创建可验证的医学问题,以便通过结果验证推理。这些可验证问题被描述为开放形式,并具有唯一且客观的真实答案,如下图1所示。
来源于医学考试问题 为实现这一目标,利用了封闭集合的真实考试问题,主要有两个原因:1)有大量的医学考试题可用;2)这些考试题通常是客观且准确的。具体而言,从MedQA-USMLE和MedMcQA的训练集中收集了192K道医学多项选择题。
转化为可验证的医学问题 然而,这些医学问题是封闭集合的,这意味着它们提供的选项有限,使得模型可以在没有适当推理的情况下猜出正确答案。此外,由于某些问题可能缺乏用于验证的唯一正确答案或过于简单以至于不需要推理,因此不适合。
为了解决这个问题,我们对问题进行如下选择和处理:
-
选择具有挑战性的问题:去除了三个小型LLM(Gemma2-9B、LLaMA-3.1-8B、Qwen2.5-7B)都能正确回答的问题,并丢弃了简短的问题,以保留那些需要更深入推理的问题。
-
确保唯一答案:排除了要求选择“错误选