一文说清楚什么是基础模型(Base LLM)、指令微调模型(Instruction-Tuned LLM)

本文链接：https://blog.youkuaiyun.com/Code1994/article/details/145678395

Base LLM 是一种通过自监督学习预训练的语言模型，主要依赖海量文本数据来学习语言结构和模式。这类模型具备强大的文本生成能力，但在执行具体任务时往往缺乏明确的指令理解能力。
Instruction-Tuned LLM 在 Base LLM 的基础上进行了额外的指令微调，使其更善于处理人类提供的任务指令。

在自然语言处理（NLP）领域，大语言模型（LLM）已成为推动人工智能进步的关键技术。随着模型规模的扩大和训练数据的增长，LLM 在各种文本生成和理解任务中展现了卓越的能力。

在做开发的过程中，可能会接触到两种不同的模型类别，这两个类别是 Base LLM（基础大语言模型） 和 Instruction-Tuned LLM（指令微调大语言模型）。

Base LLM 是一种通过大规模自监督学习（self-supervised learning）预训练的语言模型，主要依赖海量文本数据来学习语言结构和模式。这类模型虽然具备强大的文本生成能力，但在执行具体任务时往往缺乏明确的指令理解能力。

相比之下，Instruction-Tuned LLM 在 Base LLM 的基础上进行了额外的指令微调，使其更善于处理人类提供的任务指令，提高了实用性和交互体验。

1、Base LLM：语言规律的探索者

1.1 预训练：模型“学会说话”

Base LLM 是所有大语言模型的基础，它通过自监督学习的方式，利用海量文本进行训练。这种模型的核心目标是学习语言模式，使其能够预测下一个单词或填补文本中的缺失部分，掌握语言的基本语法、语义和世界知识。

由于 Base LLM 仅依赖于大规模数据的预训练过程，因此它具备广泛的语言理解和生成能力，但在特定任务上的表现往往不够精准。

如果没有微调，基础模型可能会对“教我如何烤面包”的提示，回答“在家用烤箱中”。这虽然是一个语法正确的句子，但并不是用户想要的。

代表性的 Base LLM 包括 GPT-3（OpenAI）、LLaMA 2（Meta）等。这些模型均未经过额外的指令优化，因此在实际应用中往往需要开发者通过额外的微调来提高其任务执行能力。

1.2 特点：

训练数据来自互联网、大型文献、书籍、代码等，不包含特定任务的优化。
主要用于通用文本生成，但缺乏对具体任务的优化。
生成的文本可能不符合人类指令，甚至会出现无关或偏离主题的内容。

1.3 应用场景：

需要进一步微调（fine-tuning）或指令优化后才能用于具体任务。
研究者可基于 Base LLM 进行特定领域的微调，例如医学、法律或金融领域。

1.4 通俗类比：

将 Base LLM 的训练比作‘儿童语言学习’：儿童通过大量输入学习语言规则，但缺乏任务意识，这与 Base LLM 通过海量文本学习语言模式但缺乏任务优化的特点相似。

输入：海量文本（如同孩子听到的日常对话）。
学习目标：预测下一个词（如同模仿大人说话）。
结果：掌握语法规则和常识，但缺乏任务意识。

1.5 能力边界与风险：为什么不能直接使用Base LLM？

Base LLM是强大的知识库，但需额外控制才能安全实用，因为可能输出达不到预期或被恶意诱导。
在这里插入图片描述

2、Instruction-Tuned LLM：任务执行的革新者

2.1 指令微调：让模型“学会协作”

Instruction-Tuned LLM 是在 Base LLM 的基础上，经过额外的指令微调，使其更善于理解和执行人类指令的模型。

与 Base LLM 相比，Instruction-Tuned LLM 具备更强的任务执行能力，能够更准确地按照用户的需求生成有价值的内容。

Instruction-Tuned LLM 通常会经历监督微调（Supervised Fine-Tuning, SFT）和强化学习（RLHF）。

在监督微调阶段，模型会学习一个 指令-响应（Instruction-Response）数据集，该数据集包含大量人类编写的任务示例，例如“请解释相对论的基本概念”及其标准答案。通过这种方式，模型能够理解不同类型的任务并提供符合预期的回答。

指令-响应（Instruction-Response）数据集用于训练模型理解任务指令并生成符合预期的响应，示例如下

{
  "instruction": "谁写了《红楼梦》？",
  "context": "",
  "response": "《红楼梦》由清代作家曹雪芹所著。"
}

{
  "instruction": "请总结以下文章的主要内容。",
  "context": "人工智能正在改变世界，特别是在医疗、金融和自动驾驶等领域。",
  "response": "人工智能正在影响多个行业，如医疗、金融和自动驾驶。"
}

databricks-dolly-15k 是一个开源数据集，包含由数千名 Databricks 员工生成的遵循指令的记录，涵盖了 InstructGPT 论文中列出的多个行为类别，包括头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和总结。

https://huggingface.co/datasets/databricks/databricks-dolly-15k

在微调完成后，部分高级模型还会使用强化学习进行优化。例如，ChatGPT 和 Claude 使用 人类反馈强化学习（RLHF） 让模型的回答更符合用户期望，更好地选择符合人类偏好的答案。

代表性的 Instruction-Tuned LLM 包括 ChatGPT（GPT-4, GPT-3.5）（OpenAI）、Llama-2-chat（Meta）、DeepSeek Chat（DeepSeek AI）等。

这些模型在执行复杂任务时表现优越，例如问答系统、代码生成、法律分析等。

虽然LLMs的起源可以追溯到 2017 年发布的“Attention is All You Need”论文，该论文将 transformer模型引入自然语言处理（NLP）任务。

但通过谷歌（2021 年）《Finetuned Language Models Are Zero-Shot Learners》和 OpenAI（2022 年）《Aligning language models to follow instructions》的影响力论文，结合指令调优和基于强化学习的反馈（RLHF），产生了现代LLMs，并随着 ChatGPT 的推出开启了当前生成性人工智能的时代。