小白也能看懂!详细解读DeepSeek背后的大语言模型技术

导读:想要了解DeepSeek背后的大语言模型技术吗!接下来我将通过四千字讲清楚DeepSeek背后的大语言模型技术。

Deepseek持续的爆红,不少人开始深究其背后的技术,但对于非专业的人员来说,弄清其原理,并非易事,最近Andrej Karpathy发布了标题为深入了解像ChatGPT这样的大语言模型的视频。整个视频有3个小时31分钟的时间。虽然内容很长,但干货多多,在接下来的内容中,我尽量以大多数人能接受的方式,来稍微讲讲目前大语言模型的基本原理。

目前来看,想要训练一个大语言模型(LLMs ),第一步在于收集海量的数据。也就是说LLMs首先抓取互联网上海量的网页数据,以构建大量文本数据集。

比如一个代表性的数据集:FineWeb ,其中包含超过12亿个网页。

问题是原始数据嘈杂,充满了重复的内容,低质量的文本和无关的信息。所以我们在训练之前,需要进行大量数据清洗。

但清理之后的数据仍然是文本性质的数据。对于这些数据,我们的计算机还是不能够直接处理,所以接下来的步骤是将其转换为模型能够接收的令牌:结构化的数字表示。

那什么是令牌化?

令牌化是将文本分解为较小的、可处理的零件(令牌)的过程。这些令牌随后被转换为一系列的数字 ID,(比如,860)这使得神经网络能够以更高效的方式处理和生成语言。

比如,字节对编码(BPE)是一种流行的令牌化技术,它通过合并字符对来逐步构建词汇表。

上图展示了"I" “View” “ing” "Single"令牌化的过程,一旦数据令牌化为tokens,它就会被馈入神经网络。其具体的过程如下:

  1. 大语言模型(neural network)在上下文窗口中采用了一组令牌(tokens)(例如,对于某些模型上下文为8,000,对于GPT-4,最高128K)。

  2. 它根据所学的模式预测了下一步的令牌。

  3. 模型中的权重调整了反向传播以减少错误。

  4. 随着时间的流逝,大语言模型学会了做出更好的预测。

事实上,更长的上下文窗口意味着模型可以从输入中“记住”更多,但也增加了计算成本。

接下来是讲讲什么是神经网络?

神经网络内部的简单的示意图

神经网络是一种受人脑结构和功能启发的机器学习模型,旨在模拟生物神经元的工作方式。它由多个相互连接的节点(称为神经元)组成,这些节点通过层次结构进行组织,能够处理和学习复杂的数据模式。神经网络在许多领域中得到了广泛应用,尤其是在自然语言处理(NLP)和计算机视觉等任务中表现出色。

对于大语言模型来说通常采用变换器(Transformer)架构,这种架构通过自注意力机制来处理输入数据,能够有效捕捉词与词之间的关系。

如果你想直观感受什么是Transformer结构,推荐你去浏览下面的链接:

Transformer结构的3D可视化

地址:bbycroft.net/llm

有了模型结构,那我们就可以通过上面提到的数据来训练上面的模型了,训练好大模型之后,我们就可以使用训练好的模型进行推理了。

对于DeepSeek 的基本模型,同样也是通过在大量互联网文本上进行预训练得到的。这些基本模型需要通过监督微调(Supervised Fine-Tuning,简称SFT)来提升其对话能力和有用性。在这个阶段,模型会通过聊天模板学习如何在对话中回应,这有助于模型区分用户输入和助手响应,从而提供更准确的信息。

那什么是监督微调(SFT)?

监督微调(Supervised Fine-Tuning,简称SFT)是一种用于调整预训练语言模型(Large Language Model, LLM)以适应特定任务的技术。它通过使用标注数据集对模型进行进一步训练,从而提高模型在特定应用场景中的表现。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[优快云大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

SFT的工作原理

  1. 预训练阶段:首先,模型在大规模的通用数据集上进行无监督预训练,学习语言的基本结构和知识。这一阶段的目标是让模型掌握丰富的语言特征。

  2. 数据准备:在进行监督微调之前,需要准备一个包含特定任务的标注数据集。这些数据集通常是针对特定应用(如情感分析、文本分类等)进行标注的。

  3. 微调过程

  • 模型复制

    :从预训练模型中复制出一个新的模型实例。

  • 修改输出层

    :根据特定任务的需求,调整模型的输出层,以适应新的任务类别。

  • 训练模型

    :使用标注好的数据集对模型进行训练,通过反向传播算法更新模型的参数,以优化其在特定任务上的表现。

如果你还不理解的话,可以看上图GPT-3的训练过程,他们第一步用到的就是监督微调。

比如,我们要教授大语言模型如何来处理对话,通常的方式是使用聊天模板。这些模板定义了对话的结构,让模型知道哪个部分是用户输入,哪个部分是助手(大语言模型)响应。

示例模板:

在这里插入图片描述

其中,<|im_start|>和<|im_end|>是有助于构建对话的特殊令牌。

当然这些模块在输入模型之前也要令牌化:

这样训练之后,我们就可以得到一个对话型的大语言模型了,当然我们可以针对不同的任务还设计不同得到对话模型,来适配不同的任务场景,比如解决数学问题的大语言模型。

除此之外,LLMs 面临的一个主要问题是 “幻觉” 现象,即模型自信地产生错误或化妆的信息。为了解决这个问题,DeepSeek 通过训练模型在不确定时使用外部工具进行查找,而不是盲目猜测答案。这种方法不仅提高了模型的准确性,还增强了其在实际应用中的可靠性。

比如,可以看到deepseek 对话框中有一个联网搜索,这种方式在一定的程度上可以解决幻觉问题。

在Meta关于事实性的研究(从他们的Llama 3论文中)描述了一种改善幻觉的方法,具体步骤如下:

  1. 提取训练数据的片段。

  2. 使用Llama 3产生有关它的事实问题。

  3. 让Llama 3产生答案。

  4. 根据原始数据对响应进行评分。

  5. 如果不正确,请训练模型以识别和拒绝不正确的响应。

本质上,此过程教会模型认识自己的知识限制。

修复幻觉的一种方法是训练模型在不知道答案时使用工具。这种方法遵循以下模式:

在这里插入图片描述

通过反复的训练,模型了解到,如果他们不知道某事,他们应该查找它而不是做出事情。

除此之外,强化学习对DeepSeek 的性能的提升起到了巨大的帮助。

DeepSeek 利用强化学习(RL)来进一步提升其性能。通过自我实验和评估不同的解决方案,模型能够学习并优化其响应,以达到更高的效果。这一过程不需要人类的直接参与,模型能够自我学习并改进。

也就是一旦模型接受了互联网数据的培训,它仍然不知道如何有效地使用其知识。

监督的微调教会它模仿人类的反应,加强学习(RL)通过反复试验可以改善它。

什么是强化学习?

强化学习(Reinforcement Learning, RL)是一种机器学习方法,旨在通过智能体与环境的交互来学习最优决策策略。以下是强化学习的基本工作原理和关键概念:

基本概念

  • 智能体(Agent):执行动作的实体,负责在环境中进行决策。

  • 环境(Environment):智能体所处的外部系统,智能体通过与环境的交互来学习。

  • 状态(State):环境在某一时刻的具体情况,智能体根据当前状态做出决策。

  • 动作(Action):智能体在特定状态下可以选择的行为。

  • 奖励(Reward):环境对智能体所采取动作的反馈,通常是一个数值,表示该动作的好坏。

工作原理

  1. 试错学习:智能体通过在环境中进行试验,执行不同的动作并观察结果。每次动作后,环境会返回一个奖励信号,智能体根据这个信号调整其策略,以期在未来获得更高的奖励。

  2. 策略(Policy):智能体根据当前状态选择动作的策略,可以是确定性的(每个状态对应一个特定动作)或随机的(根据概率分布选择动作)。

  3. 价值函数(Value Function):用于评估在特定状态下,智能体未来可能获得的累计奖励。价值函数帮助智能体判断哪些状态更有利于获得高奖励。

  4. 探索与利用(Exploration vs. Exploitation):智能体在学习过程中需要平衡探索新动作(可能获得更高的奖励)与利用已知的最佳动作(获得当前的高奖励)之间的关系。这一平衡是强化学习中的核心挑战之一。

  5. 马尔可夫决策过程(MDP):许多强化学习算法基于MDP模型,该模型假设未来状态仅依赖于当前状态和所采取的动作,而与过去的状态无关。这种假设简化了学习过程,使得智能体能够更有效地进行决策

RL工作流程的示意图

在大语言模型中RL不依赖于人类创建的数据集,而是让模型实验具有不同的解决方案,并确定哪些方法最有效。

像OpenAI这样的公司对此进行了大量研究,当然他们是不愿意公开具体的模型算法。

这就是为什么DeepSeek让他们闻风丧胆的原因。从DeepSeek的论文可以看出RL和FT带来了具体的推理能力。

从Deepseek论文中取出的一个例子表明,随着时间的流逝,该模型能够使用更多的令牌来获得更好的推理。

您可以看到该模型在这里具有这个“ aha”时刻,这不是您可以通过在数据集上的训练来明确教授模型的内容。这是模型必须通过加强学习来弄清楚的东西。这种技术的优点是,该模型在推理方面变得更好,但是会导致消耗越来越多的tokens。

事实上,RL曾在围棋游戏中大放异彩!

除此之外,还有一个比较重要的技术:从人类反馈学习(RLHF)

从人类反馈学习(Reinforcement Learning from Human Feedback,简称RLHF)是一种结合了强化学习和人类反馈的机器学习技术,其主要目标是:旨在优化模型的输出,使其更符合人类的期望和需求。

RLHF的基本流程

  1. 初步训练:首先,使用传统的监督学习或无监督学习方法对模型进行预训练,使其掌握基础的语言结构和知识。

  2. 生成输出:模型根据输入生成多个候选输出,这些输出可能是对话回复、文本生成等。

  3. 人类反馈收集:人类评审员对模型生成的输出进行评估,提供反馈。这种反馈可以是评分、偏好选择(例如哪个输出更好)或详细的文本评论。

  4. 奖励模型构建:将人类的反馈转化为奖励信号,构建一个奖励模型。这个模型用于评估模型输出的质量,帮助模型学习哪些输出更符合人类的偏好。

  5. 策略优化:使用强化学习算法(如策略梯度方法)对模型进行优化,使其在生成输出时能够最大化奖励模型的评分。这一过程通常是迭代的,模型会不断调整其策略,以提高未来输出的质量。

RLHF的优势

  • 提高输出质量:通过直接针对人类满意度进行优化,RLHF能够生成更自然、合适的输出。

  • 适应性强:模型能够学习特定情境下的细微差别和文化偏好,提高在特定领域的适用性。

  • 伦理和安全性:通过纳入人类的价值观,RLHF有助于避免生成有害或不合伦理的内容。

使用人为反馈(RLHF)的LLMS的强化学习的流程图

有了以上各种组件的加持(数据预处理、令牌化、基于变压器的神经网络以及通过监督微调和强化学习提升的性能),我们就可以训练一个功能强大的大语言模型。

当然,这些技术的结合使得 DeepSeek 能够在多种场景中提供准确的信息和服务,从而在智能助手、自动内容创作等领域展现出巨大的潜力。

尤其是通过强化学习从人类反馈(RLHF)的方法,DeepSeek 能够进一步提升其在无法验证的领域中的表现,减少幻觉现象,提高模型的自我认知和推理能力。

未来来看,大语言模型 LLMs 将不仅限于文本处理,还将扩展到多模式交互,与人类形成更加紧密的协作关系,最终实现普遍存在的无形 AI,以及与计算机交互的能力。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[优快云大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值