期刊名:nature medicine
标题:Large language models in medicine 医学中的大语言模型
作者:
Arun James Thirunavukarasu 1,2, Darren Shu Jeng Ting3,4,5, Kabilan Elangovan 6, Laura Gutierrez 6, Ting Fang Tan6,7 & Daniel Shu Wei Ting6,7,8
Abstract:
大型语言模型(LLM)可以响应自由文本查询,而无需经过相关任务的专门培训,这引起了人们对其医疗领域应用的兴奋和担忧。ChatGPT是一种生成型人工智能聊天机器人,通过对LLM进行复杂的微调而产生,其他工具也通过类似的过程被开发出来。在这里,我们概述了ChatGPT等LLM应用程序是如何开发的,并讨论了如何在临床环境中利用它们。我们考虑LLM的优势和局限性,以及它们在医学领域提高临床、教育和研究工作的效率和有效性方面的潜力。LLM聊天机器人已经被应用于一系列生物医学环境中,并取得了令人印象深刻但喜忧参半的结果。这篇综述是感兴趣的临床医生的入门读物,他们将确定LLM技术是否以及如何用于医疗保健,以造福患者和从业者。
Introduction:
大型语言模型(LLM)是一种人工智能(AI)系统,使用来自文章、书籍和其他基于互联网的内容的数十亿个单词训练而成。通常,LLM使用神经网络架构(术语表见方框1),利用深度学习来表示文本训练集中单词之间的复杂关联关系,深度学习已经在医学领域取得了令人印象深刻的结果1,2。通过这个可能是多阶段的、涉及不同程度的人类输入的训练过程,LLM学习单词在语言中如何相互使用,并可以将这些学习到的模式应用于完成自然语言处理任务。
自然语言处理描述了广泛的计算研究领域,目的是以一种模仿人类能力的方式促进语言的自动分析3。生成型人工智能开发人员的目标是生成一种模型,它们能够按需要生成内容,并与应用程序中的自然语言处理(如聊天机器人和文本预测)相结合,换句话说,就是“自然语言生成”任务4。经过多年的开发,现在已经出现了具有“少样本”或“零样本”性能的LLM(方框1),这意味着它们可以识别、解释和生成文本,而只需很少或不需要特定的微调5,6。一旦模型大小、数据集大小和计算资源足够大7,这些少样本和零样本特性就会出现。随着深度学习技术、强大的计算资源和用于训练的大型数据集的发展,LLM应用程序已经开始出现,并且可能颠覆在包括医疗保健在内的各个领域的认知。
ChatGPT(OpenAI)是一个LLM聊天机器人:一个生成型人工智能应用程序,现在可以生成文本以响应多模态的输入(以前只接受文本输入)12。其后端LLM是Generative Pretrained Transformer 3.5或4(GPT-3.5或GPT-4),如下所述13、14。ChatGPT的影响源于其对话的交互性,以及在包括医学在内的各个领域的认知任务中接近人类水平或等同于人类水平的表现14。ChatGPT在美国医学执照考试中取得了及格水平的成绩,有人建议LLM应用程序可用于临床,教育或研究环境14-16。然而,不依赖人类监督的机器自主决策模式,其潜在应用和能力是有争议的:笔试是未经验证的临床表现指标,缺乏良好的基准使得评估表现成为一项重大挑战。目前的LLM技术很可能会在密切监督下作为一种工具得到最有效的利用。
本文以ChatGPT为例,探讨了最先进的LLM在医学中的应用。首先,解释了LLM的开发,概述了开发这些模型所采用的模型架构和训练过程。接下来,讨论了LLM技术在医学中的应用,重点是已发表的用例。然后描述了LLM应用程序落地实施的技术限制和障碍,为有效的研究和开发指明了未来的方向。LLM目前处于医疗人工智能的前沿,在提高临床、教育和研究工作的效率和效果方面具有巨大的潜力,但它们需要广泛的验证和进一步的发展,以克服技术上的弱点。
Box 1:Glossary of common terms in LLM development 术语表
- 计算资源:训练和部署机器学习模型所需的硬件,包括处理能力、内存和存储。
- 深度学习:机器学习的一种变体,涉及具有多层处理“感知器”(节点)的神经网络,它们共同促进非结构化输入数据(例如,图像,视频和文本)的高级特征的提取。
- 少样本学习(few -shot learning):人工智能的开发目的是在只接触任务的几个初始示例的情况下完成任务,并对未见过的示例进行准确的归纳。
- 生成式人工智能:能够按需生成文本、图像或声音等内容的计算系统。
- 大型语言模型:一种使用深度神经网络学习自然语言中词与词之间关系的AI模型,使用大型文本数据集进行训练。
-
机器学习:人工智能的一个领域,其特点是使计算机能够根据输入数据学习并做出预测,从经验中学习。
-
模型大小:AI模型中参数的个数;LLM由通信节点层组成,每个通信节点层包含一组在训练期间优化的参数。
-
自然语言处理:人工智能研究的一个领域,专注于计算机与人类语言之间的交互。
-
神经网络:受生物神经网络启发的计算系统,包括“感知器”(节点),通常分层排列,彼此通信并对输入数据进行转换。
-
参数:机器学习模型中的一个变量,它在训练期间被调整(通常是自动的)以最大化性能。在深度学习中,参数是由神经网络节点组成的“权重”或数据转换函数。
-
语义任务:自然语言处理任务需要在更深层次上理解语言输入的含义,而不仅限于最简单的表层水平的词汇和语法。
-
零样本学习:开发AI来完成任务,而无需接触任何先前的任务示例。
Development of LLM chatbots:大语言模型聊天机器人的发展
LLM的总大小并不是控制其效用的唯一重要因素:ChatGPT目前在医疗保健研究中引起了最大的兴趣,尽管它的初始后端GPT-3.5参数量并不是最大的(图1)5,11。这要归功于复杂的微调,特别是对人类输入问题的适当响应。ChatGPT及其后端LLM——GPT-3.5和GPT-4——提供了一个有用的案例研究,说明了开发最先进的LLM应用程序所需的架构、资源和训练过程,尽管最新的技术发展仍然是保密的。
第一版GPT (GPT-1)于2018年发布(参考文献19)。GPT1的训练是半监督的,首先进行无监督预训练,用以程序化语言中各个单词之间的关联关系,随后进行有监督的微调,以优化特定自然语言处理任务的性能。为了简化优化,结构化的输入问题(例如,因果顺序的段落、离散段落、选择题和答案)被转换为单一的线性单词序列19。对于预训练,GPT-1使用了BooksCorpus数据集,该数据集包含11,308本小说,包含约7400万个句子,或1 × 10 ^ 9个单词。这种新型模型的总体表现非常出色——在12项自然语言处理任务中的9项中优于定制模型,并且在许多情况下具有可接受的零样本性能。
GPT-2(于2019年发布)拥有15亿个参数,比其前身大10倍。它的训练数据来自WebText,这是一个来自800多万份文档的40gb数据集。GPT-2最初在几个自然语言处理任务(阅读理解、总结、翻译和问题回答)上进行了评估,其表现优于许多专门用于狭窄用例的定制模型,甚至在零样本环境下也是如此。GPT-2证明了大型模型以最先进水平执行不熟悉的任务的能力,但在文本摘要任务中表现明显较弱,其表现与定制模型相似或更差。在少样本环境或使用任务提示时,性能得到了提高,说明这些LLM能够整合提示信息,更好地实现用户的目标。
2020年,GPT-3发布,拥有1750亿个参数