本文是LLM系列文章,针对《Me LLaMA: Foundation Large Language Models for Medical Applications》的翻译。
摘要
最近的大型语言模型(LLM),如ChatGPT和LLaMA,在许多人工智能应用中显示出了巨大的前景。然而,它们在医疗任务上的性能是次优的,可以通过在广泛的特定领域数据集上进行训练来提高。本研究介绍了Me LLaMA,这是一个医学LLM家族,包括基础模型-Me LLaMA 13/70B,以及它们的高级版本-Me LLa MA 13/70B聊天,通过使用大型医学数据集对LLaMA2进行持续的预训练和指令调整而开发。我们用于训练和评估的特定领域数据套件包括一个具有129B个标记的大规模、连续的预训练数据集、一个具有214k个样本的指令调整数据集,以及一个跨六个任务(具有12个数据集)的新医疗评估基准(MIBE)。我们使用MIBE进行的广泛评估表明,Me-LLaMA模型在零样本、小样本和监督学习能力方面比现有开源医学LLM实现了更好的总体性能。在8个数据集中,有7个数据集的零样本性能与ChatGPT相当,差异在3%以内,但与GPT-4相比仍有不足。此外,我们调查了灾难性遗忘问题,结果表明,在缓解这一问题方面,Me LLaMA模型优于其他开源医学LLM。Me LLaMA是最大的开源医学基金会LLM之一,同时使用生物医学和临床数据。与其他开源医疗LLM相比,它在普通和医疗任务中都表现出卓越的性能,这使它成为医疗人工智能应用的一个有吸引力的选择。我们在以下位置发布我们的模型、数据集和评估脚本:https://github.com/BIDS-Xu-Lab/Me-LLaMA.

Me LLaMA是专为医疗应用设计的大型语言模型系列,通过在大量医学数据上训练和调整LLaMA2,提高了在医疗任务中的性能。模型在新医疗评估基准MIBE上展现出优秀的零样本、小样本和监督学习能力,与ChatGPT表现接近,但在某些方面仍不及GPT-4。Me LLaMA在缓解灾难性遗忘问题上优于其他开源医学LLM,是医疗人工智能领域的一个强大选择。
已下架不支持订阅
1986

被折叠的 条评论
为什么被折叠?



