从Transformer到GPT
Transformer是由谷歌于2017年提出的处理序列数据的架构(一种架构这个描述还是挺精准的),其最重要的概念是注意力机制,特性是支持并行处理序列(加快训练速度)
随后在2018年6月OpenAI就基于Transformer提出了GPT模型,这是一个Decoder-only模型
同年10月,谷歌提出了BERT架构,这是一个Encoder-only架构,意味着这是一个双向模型(编码器层没有使用掩码注意力层),可以联系上下文语境分析文本。而GPT是一个单向模型,在多个任务上BERT性能都要远好于GPT。但OpenAI依然不变模型架构,而是不断扩大规模,从GPT-2开始,模型出现Zero-Shot特性,可以不经过参数更新在新任务上获得不错的结果。
LLM
NLP领域,模型拓展可以显著提高模型性能,且达到一定规模上,会出现一些在小模型上不会出现的能力(涌现能力),因此区别于传统的预训练语言模型PLM,新术语--大语言模型LLM被提出了。
LLM一般有着上千亿参数量,可以根据给定的上下文(Prompt)生成高质量内容。只有当模型规模超过某个水平才能观察到涌现能力。
- 语境学习(In-context learning【ICL】):只需要提供少数的输入输出示例,模型即可根据这些上下文语境,无需额外的模型训练即可完成指定任务(Zero-shot)
- 指令遵循(Instruction following):通过在格式化的指令数据集上fine-tuning,LLM也表现出用指令形式描述未知任务,寻找合适的prompt来激发模型能力成了显性需求。
- 逐步推理(Step-by-step reasoning):可以提供一些解题步骤提示,让模型具有逐步推理的能力,这被称为思维链(CoT,Chain-of-Thought)。
Adaptation Tuning
预训练后,LLM具有一定的解决问题的能力,经过特定任务的fine-tuning后,LLM会获得更强大的能力。下面介绍两种tuning方法。
instruction Tuning
指在经过预训练的LLM上用格式化的自然语言示例数据集进行fine-tuning,训练序列生成任务,经过instruction tuning之后,LLM具有了理解任务描述的能力,使得在未知任务上的泛化能力将进一步增强。
Alignment Tuning
LLM具有强大的能力,但是却没有人类的价值观,其输出的内容可能具有谎言,暴力等描述。为了限制模型输出,需要将人类对输出内容的偏好教给模型。
目前比较流行的方案是RLHF,将人类反馈用强化学习的方式接入到模型训练中,推荐看instructGPT论文。
怎么用
In-Context Learning
ICL首次出现在GPT-3中,ICL使用格式化的自然语言prompt,一般包括任务描述和一些示例,形成具有特定格式的LLM输入,基于这样的输入,LLM可以理解并完成新任务,而无需梯度更新。
instruction tuning需要进行fine-tuning LLM,但是ICL仅需要使用prompt去激发LLM的能力即可,无需更新模型参数。ICL的性能受演示示例的影响很大,所以出现了一些prompt工程师岗位。
Chain-of-Thought Prompting
CoT其实是ICL的一个特例,相当于在ICL的基础上增加了推理步骤。
BERT和GPT,为什么是GPT引发了AI浪潮
具体来说,BERT最终输出的是Embedding,它并不关注任务具体是什么,而这个Embedding足够好用,使得其可以通过拼接其他算法,完成各种任务(比如基于Embedding去分类)
而GPT则是有固定任务的,predict next word。GPT的工作模式,就是通过不断的predict next word,拼接成完整的句子,得到结果,这就是所谓的”生成式“。
因此,GPT表现出来了通用智能的效果(完成任务能力更强),而BERT任然需要特定领域的fine-tuning(每个领域下的embedding逻辑并不通用),才能完成应用。
AIGC:"AI Generated Content“生成式AI
AGI:”Artificial General Intelligence“通用人工智能,AGI的目标是创建一个全面智能的系统,可以解决广泛的问题并进行多种任务,这种系统能够在不同的环境中适应和学习,向人类一样进行推理和决策。AGI是更高级别的人工智能,是当前人工智能技术发展的一个重要方向和目标。
RL:Reinforcrment Learning强化学习