前言
什么是提示工程呢?简单来说,就是通过精心设计、优化输入信息来引导人工智能生成高质量、准确、有针对性的回应。
如果将互联网比喻为人类的新器官,互联网极大地扩展了我们的记忆容量,就像我们额外拥有了一个记忆器官。揭示了我们正在成为的生物——一种通过与技术深度相连来增强自我能力的生物。
以ChatGPT为代表的人工智能也正在成为我们的新器官,它们将辅助我们处理信息、做出决策、进行学习、理解和解决复杂的问题,激发我们的创造力。它们将极大地扩展我们的认知范围和思维能力。在它们的辅助下,每个人在未来都可以做到以前想象不到的事情。
第1章 认识ChatGPT
Google Workspace与Microsoft Office都会嵌入生成式人工智能,
AutoGPT则试图让大语言模型能够自主行动。
1.1 ChatGPT是什么
Chat Generative Pre-trained Transformer
2022年11月发布GPT-3.5
2023年3月发布GPT-4
语言模型是什么呢?语言模型可以理解为一种预测下一个token(自然语言处理的单位,可以简单理解为词)的统计模型。
语言模型会根据我们输入的词序列,结合它见过的所有词序列组合,再根据词序列组合出现的频率,来预测下一个最有可能出现的词是什么。根据语言样本进行概率分布估计,就是语言模型。
语言模型究竟长什么样子呢?
可以想象有一张巨大的表格,这张表格列出了所有词序列的组合,以及词序列对应组合出现的频率。当我们输入某个词序列时,语言模型会在这张表格里找出与之最匹配的词序列,并预测出其后面最常见的一个词。
语言模型的类型和对应的简单说明
统计语言模型
神经语言模型
预训练语言模型
大语言模型
GPT是Generative Pre-trained Transformer的缩写,中文释译为“生成式预训练变换模型”。
GPT是一种生成式人工智能。它通过计算大量数据中的概率分布,最终可以从分布中生成新的数据。
预训练是指在训练特定任务的模型之前,先在大量的数据上进行训练,以学习一些基础的、通用的特征或模式。用于预训练的数据通常是未标注过的,这意味着模型需要自我发现数据中的规律和结构,而不是依赖已标注的信息进行学习。使用无标注数据的训练方式通常被称为“无监督学习”。
预训练过程使得GPT能够学习到语言的一般模式和结构。然后, GPT可以通过在有标签的数据上进行微调,来适应各种不同的任务。
Transformer直译成中文可以是“改变者”“变换器”,甚至是“变形金刚”,这是GPT的基础架构。Transformer是一种深度学习模型,它使用自注意力机制来处理序列数据。这使得GPT能够有效地处理长文本,并捕捉到文本中的复杂模式。
什么是自注意力机制呢?
自注意力机制(Self-Attention)是Transformer的核心组成部分。这种机制的主要思想是在处理序列的每个元素时,不仅考虑该元素本身,还考虑与其相关的其他元素。
Transformer可以为语言模型提供一种“有的放矢”的能力,它可以对输入的文本中的每个词分配不同的重要性权重,然后进行权重比较,从而帮助模型理解文本中各词之间的依赖和关联关系,使其不再机械地对待每一个词,而是可以像人类一样有选择性地关注与理解信息。
所以,当我们说“GPT”时,其实指的是一种能够生成新的连贯文本,在大量数据上进行预训练并使用Transformer架构的深度学习模型。
2017年,谷歌发布了关于Transformer的论文;
2018年,OpenAI发布了GPT-1;
2020年,OpenAI发布了GPT-3。
2022年11月发布ChatGPT(GPT-3.5)
1.2 ChatGPT的能力
实实在在的生产工具,它不但能与你进行对话,还可以进行自动写作、命题绘画、语言翻译、智能推荐、分析预测等。它能应用在各行各业,如广告、直播、写作、绘图、新闻等。
涌现是“由量变引起质变”,是“整体大于部分的总和”的概念。
大模型能力的涌现是指在小规模模型中不存在,但在大规模模型中存在的能力。
ChatGPT等大语言模型是建立在Transformer结构之上的,且多头注意机制层层叠加,最终形成一个极深的神经网络。
以下三种新能力将使ChatGPT大有作为。
上下文理解