从 DeepSeek R1 论文深入理解推理型大模型

作者:Sebastian Raschka|编译:段小草

原文:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

本文将介绍构建推理型模型的四种主要方法,以及如何增强大语言模型的推理能力。希望这篇文章能为您提供有价值的见解,帮助您更好地了解和应对关于这一主题的快速发展的论文和炒作。

在2024年,大语言模型领域出现了越来越多的专业化趋势。除了预训练和微调之外,我们还见证了诸如 RAG(生成增强检索)和代码助手等专用应用的兴起。我预计这一趋势将在 2025 年进一步加速,届时将更加注重针对特定领域和应用的优化(即「专业化」)。

第 1-3 阶段是开发 LLMs 的常见步骤。第 4 阶段是用于特定用例的专业 LLMs

第 1-3 阶段是开发 LLMs 的常见步骤。第 4 阶段是用于特定用例的专业 LLMs

推理型模型的开发正是这些专业化的一部分。这意味着我们将大语言模型进一步优化,使其能够在需要通过中间步骤解决的复杂任务中表现出色,比如解谜、复杂数学运算和编程挑战。然而,这种专业化并不会取代其他大语言模型应用。因为将大语言模型转化为推理型模型也会带来一些弊端,稍后我会详细讨论这些问题。

为了简要概述本文内容,接下来我将:

  • • 解释「推理型模型」的含义

  • • 讨论推理型模型的优缺点

  • • 概述 DeepSeek R1 的开发方法

  • • 描述构建和改进推理型模型的四种主要方法

  • • 分享 DeepSeek V3 和 R1 发布后对大语言模型领域的看法

  • • 提供在预算有限的情况下开发推理型模型的建议

希望这篇文章对您有所帮助,特别是在AI快速发展的今年!

我们如何定义「推理型模型」?

如果你从事人工智能或机器学习工作,可能会对那些模糊且争议不断的定义有所了解。「推理型模型」这一术语也不例外。最终,某人会在论文中正式定义它,但很快就会在下一篇文章中重新定义,如此循环。

在本文中,我将「推理」定义为回答那些需要复杂、多步骤生成并包含中间步骤的问题的过程。例如,像「法国的首都是哪里?」这样的事实性问题不涉及推理。相比之下,像「如果一列火车以 60 英里每小时的速度行驶,行驶 3 小时,它能走多远?」这样的问题则需要一些简单的推理。比如,它需要认识到距离、速度和时间之间的关系,然后得出答案。

常规LLM通常只会提供简短的答案(如左侧所示),而推理模型则通常包括一些中间步骤,这些步骤可以揭示思考过程的一部分。(需要注意的是,很多没有专门为推理任务开发的LLM,也可以在回答中提供一些中间的推理步骤。)

常规LLM通常只会提供简短的答案(如左侧所示),而推理模型则通常包括一些中间步骤,这些步骤可以揭示思考过程的一部分。(需要注意的是,很多没有专门为推理任务开发的LLM,也可以在回答中提供一些中间的推理步骤。)

大多数现代大语言模型(LLMs)都能够进行基本的推理,能回答像「如果一列火车以 60 英里每小时的速度行驶,行驶 3 小时,它能走多远?」这样的问题。因此,今天当我们提到推理型模型时,通常指的是那些在更复杂的推理任务中表现出色的大语言模型,例如解谜、猜谜和数学证明等。

此外,今天大多数被标榜为推理型模型的大语言模型在其回答中通常会包含「思考」或「思维」过程。至于大语言模型是否以及如何「思考」,这是一个独立的讨论话题。

推理型模型中的中间步骤有两种表现方式。首先,它们可能会显式地包含在答案中,如前面所示的图示。其次,一些推理型大语言模型,例如 OpenAI 的 o1,会进行多次迭代,每次迭代包含中间步骤,但这些步骤并不会显示给用户。

「推理」可以在两个层面上使用:1) 处理输入并通过多个中间步骤生成结果。2) 将某种推理作为回应的一部分提供给用户。

「推理」可以在两个层面上使用:1) 处理输入并通过多个中间步骤生成结果。2) 将某种推理作为回应的一部分提供给用户。

什么时候应该使用推理型模型?

在我们定义了推理型模型后,接下来可以进入更有趣的部分:如何构建和改进大语言模型以应对推理任务。然而,在深入技术细节之前,重要的是要考虑在什么情况下实际上需要推理型模型。

们什么时候需要推理型模型? 推理型模型的设计目的是擅长解决一些复杂任务,如解谜、进阶数学问题和具有挑战性的编程任务。然而,对于像总结、翻译或基于知识的问题回答这些简单任务,它们并不是必需的。实际上,使用推理型模型处理所有任务可能会导致低效且成本较高。例如,推理型模型通常使用成本较高,生成的回答更冗长,并且有时由于“过度思考”而更容易出错。在这里,有一个简单的原则:根据任务选择合适的工具(或大语言模型类型)。

推理型模型的主要优势和局限性总结如下图所示。

推理模型的关键优势和劣势

推理模型的关键优势和劣势

简要了解 DeepSeek 的训练流程

在下一部分讨论构建和改进推理型模型的四种主要方法之前,我想简要介绍一下 DeepSeek R1 的训练流程,这一流程在 DeepSeek R1 技术报告[1]中有详细描述。该报告不仅是一个有趣的案例研究,也为开发推理型大语言模型提供了蓝图。

需要注意的是,DeepSeek 并没有发布单一的 R1 推理型模型,而是推出了三个不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据技术报告中的描述,我总结了这些模型的开发过程,具体见下图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值