本文是LLM系列文章,针对《Capabilities of Gemini Models in Medicine》的翻译。
摘要
各种医学应用的卓越表现给人工智能带来了相当大的挑战,需要先进的推理、获取最新的医学知识和理解复杂的多模态数据。Gemini模型在多模态和长上下文推理方面具有很强的通用能力,在医学领域提供了令人兴奋的可能性。基于Gemini 1.0和Gemini 1.5的这些核心优势,我们引入了Med Gemini,这是一个功能强大的多模态模型家族,专门从事医学研究,能够无缝集成网络搜索的使用,并且可以使用自定义编码器有效地针对新的模式进行定制。我们在14个医学基准上对Med Gemini进行了评估,这些基准涵盖了文本、多模式和长上下文应用程序,在其中10个应用程序上建立了最新的最先进(SoTA)性能,并在每个可以直接比较的基准上都超越了GPT-4模型系列,通常是大幅度的。在流行的MedQA(USMLE)基准测试中,我们表现最佳的Med Gemini模型使用一种新颖的不确定性引导搜索策略,实现了91.1%的SoTA性能,比我们之前最好的Med PaLM 2高出4.6%。我们的基于搜索的策略概括了SoTA在新英格兰医学杂志(NEJM)和GeneTuring基准测试中复杂诊断挑战的表现。在NEJM图像挑战和MMMU(健康与医学)等7个多模态基准测试中,Med Gemini的平均相对优势比GPT-4V提高了44.5%。我们通过SoTA在从长时间去标识的健康记录和医疗视频问答中检索任务时的表现,展示了Med Gemini的长上下文能力的有效性,超越了之前仅在上下文学习中使用的定制方法。最后,Med Gemini的表现表明了现实世界的实用性,它在医学文本摘要和转诊信生成等任