小白也能看懂！详细解读DeepSeek背后的大语言模型技术

本文链接：https://blog.youkuaiyun.com/qingkahui24689/article/details/145569821

导读：想要了解DeepSeek背后的大语言模型技术吗！接下来我将通过四千字讲清楚DeepSeek背后的大语言模型技术。

Deepseek持续的爆红，不少人开始深究其背后的技术，但对于非专业的人员来说，弄清其原理，并非易事，最近Andrej Karpathy发布了标题为深入了解像ChatGPT这样的大语言模型的视频。整个视频有3个小时31分钟的时间。虽然内容很长，但干货多多，在接下来的内容中，我尽量以大多数人能接受的方式，来稍微讲讲目前大语言模型的基本原理。

目前来看，想要训练一个大语言模型（LLMs ），第一步在于收集海量的数据。也就是说LLMs首先抓取互联网上海量的网页数据，以构建大量文本数据集。

比如一个代表性的数据集：FineWeb ，其中包含超过12亿个网页。

问题是原始数据嘈杂，充满了重复的内容，低质量的文本和无关的信息。所以我们在训练之前，需要进行大量数据清洗。

但清理之后的数据仍然是文本性质的数据。对于这些数据，我们的计算机还是不能够直接处理，所以接下来的步骤是将其转换为模型能够接收的令牌：结构化的数字表示。

那什么是令牌化？

令牌化是将文本分解为较小的、可处理的零件（令牌）的过程。这些令牌随后被转换为一系列的数字 ID，（比如，860）这使得神经网络能够以更高效的方式处理和生成语言。

比如，字节对编码（BPE）是一种流行的令牌化技术，它通过合并字符对来逐步构建词汇表。

上图展示了"I" “View” “ing” "Single"令牌化的过程，一旦数据令牌化为tokens，它就会被馈入神经网络。其具体的过程如下：

大语言模型（neural network）在上下文窗口中采用了一组令牌（tokens）（例如，对于某些模型上下文为8,000，对于GPT-4，最高128K）。
它根据所学的模式预测了下一步的令牌。
模型中的权重调整了反向传播以减少错误。
随着时间的流逝，大语言模型学会了做出更好的预测。

事实上，更长的上下文窗口意味着模型可以从输入中“记住”更多，但也增加了计算成本。

接下来是讲讲什么是神经网络？

神经网络内部的简单的示意图

神经网络是一种受人脑结构和功能启发的机器学习模型，旨在模拟生物神经元的工作方式。它由多个相互连接的节点（称为神经元）组成，这些节点通过层次结构进行组织，能够处理和学习复杂的数据模式。神经网络在许多领域中得到了广泛应用，尤其是在自然语言处理（NLP）和计算机视觉等任务中表现出色。

对于大语言模型来说通常采用变换器（Transformer）架构，这种架构通过自注意力机制来处理输入数据，能够有效捕捉词与词之间的关系。

如果你想直观感受什么是Transformer结构，推荐你去浏览下面的链接：

Transformer结构的3D可视化

地址：bbycroft.net/llm

有了模型结构，那我们就可以通过上面提到的数据来训练上面的模型了，训练好大模型之后，我们就可以使用训练好的模型进行推理了。

对于DeepSeek 的基本模型，同样也是通过在大量互联网文本上进行预训练得到的。这些基本模型需要通过监督微调（Supervised Fine-Tuning，简称SFT）来提升其对话能力和有用性。在这个阶段，模型会通过聊天模板学习如何在对话中回应，这有助于模型区分用户输入和助手响应，从而提供更准确的信息。

那什么是监督微调（SFT）？

监督微调（Supervised Fine-Tuning，简称SFT）是一种用于调整预训练语言模型（Large Language Model, LLM）以适应特定任务的技术。它通过使用标注数据集对模型进行进一步训练，从而提高模型在特定应用场景中的表现。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

SFT的工作原理

预训练阶段：首先，模型在大规模的通用数据集上进行无监督预训练，学习语言的基本结构和知识。这一阶段的目标是让模型掌握丰富的语言特征。
数据准备：在进行监督微调之前，需要准备一个包含特定任务的标注数据集。这些数据集通常是针对特定应用（如情感分析、文本分类等）进行标注的。
微调过程：

模型复制

：从预训练模型中复制出一个新的模型实例。
修改输出层

：根据特定任务的需求，调整模型的输出层，以适应新的任务类别。
训练模型

：使用标注好的数据集对模型进行训练，通过反向传播算法更新模型的参数，以优化其在特定任务上的表现。

如果你还不理解的话，可以看上图GPT-3的训练过程，他们第一步用到的就是监督微调。

比如，我们要教授大语言模型如何来处理对话，通常的方式是使用聊天模板。这些模板定义了对话的结构，让模型知道哪个部分是用户输入，哪个部分是助手（大语言模型）响应。

示例模板：

在这里插入图片描述

其中，<|im_start|>和<|im_end|>是有助于构建对话的特殊令牌。

当然这些模块在输入模型之前也要令牌化：

这样训练之后，我们就可以得到一个对话型的大语言模型了，当然我们可以针对不同的任务还设计不同得到对话模型，来适配不同的任务场景，比如解决数学问题的大语言模型。

除此之外，LLMs 面临的一个主要问题是 “幻觉” 现象，即模型自信地产生错误或化妆的信息。为了解决这个问题，DeepSeek 通过训练模型在不确定时使用外部工具进行查找，而不是盲目猜测答案。这种方法不仅提高了模型的准确性，还增强了其在实际应用中的可靠性。

比如，可以看到deepseek 对话框中有一个联网搜索，这种方式在一定的程度上可以解决幻觉问题。

在Meta关于事实性的研究（从他们的Llama 3论文中）描述了一种改善幻觉的方法，具体步骤如下：

提取训练数据的片段。
使用Llama 3产生有关它的事实问题。
让Llama 3产生答案。
根据原始数据对响应进行评分。
如果不正确，请训练模型以识别和拒绝不正确的响应。

本质上，此过程教会模型认识自己的知识限制。

修复幻觉的一种方法是训练模型在不知道答案时使用工具。这种方法遵循以下模式：

在这里插入图片描述

通过反复的训练，模型了解到，如果他们不知道某事，他们应该查找它而不是做出事情。

除此之外，强化学习对DeepSeek 的性能的提升起到了巨大的帮助。

DeepSeek 利用强化学习（RL）来进一步提升其性能。通过自我实验和评估不同的解决方案，模型能够学习并优化其响应，以达到更高的效果。这一过程不需要人类的直接参与，模型能够自我学习并改进。

也就是一旦模型接受了互联网数据的培训，它仍然不知道如何有效地使用其知识。

监督的微调教会它模仿人类的反应，加强学习（RL）通过反复试验可以改善它。

什么是强化学习？

强化学习（Reinforcement Learning, RL）是一种机器学习方法，旨在通过智能体与环境的交互来学习最优决策策略。以下是强化学习的基本工作原理和关键概念：

基本概念

智能体（Agent）：执行动作的实体，负责在环境中进行决策。
环境（Environment）：智能体所处的外部系统，智能体通过与环境的交互来学习。
状态（State）：环境在某一时刻的具体情况，智能体根据当前状态做出决策。
动作（Action）：智能体在特定状态下可以选择的行为。
奖励（Reward）：环境对智能体所采取动作的反馈，通常是一个数值，表示该动作的好坏。

工作原理

试错学习：智能体通过在环境中进行试验，执行不同的动作并观察结果。每次动作后，环境会返回一个奖励信号，智能体根据这个信号调整其策略，以期在未来获得更高的奖励。
策略（Policy）：智能体根据当前状态选择动作的策略，可以是确定性的（每个状态对应一个特定动作）或随机的（根据概率分布选择动作）。
价值函数（Value Function）：用于评估在特定状态下，智能体未来可能获得的累计奖励。价值函数帮助智能体判断哪些状态更有利于获得高奖励。
探索与利用（Exploration vs. Exploitation）：智能体在学习过程中需要平衡探索新动作（可能获得更高的奖励）与利用已知的最佳动作（获得当前的高奖励）之间的关系。这一平衡是强化学习中的核心挑战之一。
马尔可夫决策过程（MDP）：许多强化学习算法基于MDP模型，该模型假设未来状态仅依赖于当前状态和所采取的动作，而与过去的状态无关。这种假设简化了学习过程，使得智能体能够更有效地进行决策

RL工作流程的示意图

在大语言模型中RL不依赖于人类创建的数据集，而是让模型实验具有不同的解决方案，并确定哪些方法最有效。

像OpenAI这样的公司对此进行了大量研究，当然他们是不愿意公开具体的模型算法。

这就是为什么DeepSeek让他们闻风丧胆的原因。从DeepSeek的论文可以看出RL和FT带来了具体的推理能力。

从Deepseek论文中取出的一个例子表明，随着时间的流逝，该模型能够使用更多的令牌来获得更好的推理。

您可以看到该模型在这里具有这个“ aha”时刻，这不是您可以通过在数据集上的训练来明确教授模型的内容。这是模型必须通过加强学习来弄清楚的东西。这种技术的优点是，该模型在推理方面变得更好，但是会导致消耗越来越多的tokens。

事实上，RL曾在围棋游戏中大放异彩！

除此之外，还有一个比较重要的技术：从人类反馈学习（RLHF）

从人类反馈学习（Reinforcement Learning from Human Feedback，简称RLHF）是一种结合了强化学习和人类反馈的机器学习技术，其主要目标是：旨在优化模型的输出，使其更符合人类的期望和需求。

RLHF的基本流程

初步训练：首先，使用传统的监督学习或无监督学习方法对模型进行预训练，使其掌握基础的语言结构和知识。
生成输出：模型根据输入生成多个候选输出，这些输出可能是对话回复、文本生成等。
人类反馈收集：人类评审员对模型生成的输出进行评估，提供反馈。这种反馈可以是评分、偏好选择（例如哪个输出更好）或详细的文本评论。
奖励模型构建：将人类的反馈转化为奖励信号，构建一个奖励模型。这个模型用于评估模型输出的质量，帮助模型学习哪些输出更符合人类的偏好。
策略优化：使用强化学习算法（如策略梯度方法）对模型进行优化，使其在生成输出时能够最大化奖励模型的评分。这一过程通常是迭代的，模型会不断调整其策略，以提高未来输出的质量。