本文是LLM系列文章,针对《Me LLaMA: Foundation Large Language Models for Medical Applications》的翻译。
摘要
最近的大型语言模型(LLM),如ChatGPT和LLaMA,在许多人工智能应用中显示出了巨大的前景。然而,它们在医疗任务上的性能是次优的,可以通过在广泛的特定领域数据集上进行训练来提高。本研究介绍了Me LLaMA,这是一个医学LLM家族,包括基础模型-Me LLaMA 13/70B,以及它们的高级版本-Me LLa MA 13/70B聊天,通过使用大型医学数据集对LLaMA2进行持续的预训练和指令调整而开发。我们用于训练和评估的特定领域数据套件包括一个具有129B个标记的大规模、连续的预训练数据集、一个具有214k个样本的指令调整数据集,以及一个跨六个任务(具有12个数据集)的新医疗评估基准(MIBE)。我们使用MIBE进行的广泛评估表明,Me-LLaMA模型在零样本、小样本和监督学习能力方面比现有开源医学LLM实现了更好的总体性能。在8个数据集中,有7个数据集的零样本性能与ChatGPT相当,差异在3%以内,但与GPT-4相比仍有不足。此外,我们调查了灾难性遗忘问题,结果表明,在缓解这一问题方面,Me LLaMA模型优于其他开源医学LLM。Me LLaMA是