DeepSeek-R1：强化学习驱动的推理模型

最新推荐文章于 2025-03-26 15:00:08 发布

原创

最新推荐文章于 2025-03-26 15:00:08 发布 · 987 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

1月20日晚，DeepSeek正式发布了全新的推理模型DeepSeek-R1，引起了人工智能领域的广泛关注。该模型在数学、代码生成等高复杂度任务上表现出色，性能对标OpenAI的o1正式版。同时，DeepSeek宣布将DeepSeek-R1以及相关技术报告全面开源。

技术报告链接：

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

在这篇技术报告中，DeepSeek团队推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1，通过强化学习（RL）显著增强了模型的推理能力，同时开创了无需监督微调（SFT）即可发展的新路径。

&nbs

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI_Mind

关注关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

强化学习曾小健

01-26

1013

与RL训练前的模型（Qwen2.5-Math-7B-Base + 8K QwQ知识蒸馏版本）相比，Qwen2.5-7B-SimpleRL的平均性能显著提升了6.9个百分点。此外，Qwen2.5-7B-SimpleRL不仅持续优于Eurus-2-7B-PRIME，还在5个基准测试中的3个上超越了Qwen2.5-7B-SimpleRL-Zero。其中，Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的，仅采用了MATH数据集中的8K样本。

DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

AI前沿技术的分享！

01-21

3493

我们推出了第一代推理模型——DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练而成，没有经过监督微调（SFT）作为初步步骤，却展现出卓越的推理能力。通过 RL，DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为。然而，它也面临着可读性差、语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们引入了 DeepSeek-R1，它在 RL 之前加入了多阶段训练和冷启动数据。

参与评论您还未登录，请先登录后发表或查看评论

从零构建 DeepSeek R1：训练、公式与可视化全解析

2401_84494441的博客

02-22

958

我将在本文中使用手绘流程图和简单计算，帮助你从零理解 DeepSeek R1 的核心技术。在整篇文章中我会使用字符串。

大模型迎来2025开年大作：deepseek-R1与deepseek-R1-Zero

热门推荐

sexy19910923的博客

01-21

3万+

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

深度求索DeepSeek-R1模型； Git 代理 AI 助手；多功能的内容创作工具

Androiddddd的博客

01-27

3106

DeepSeek-R1 是由深度求索公司开发的第一代推理模型系列，包括 DeepSeek-R1-Zero 和 DeepSeek-R1 两个主要模型。DeepSeek-R1-Zero: 该模型是通过大规模强化学习（RL）训练，无需预先进行监督微调（SFT），展现出强大的推理能力，并自然涌现出多种推理行为，例如自我验证、反思和生成长链推理（CoT）。这是第一个公开的研究，验证了大型语言模型（LLM）的推理能力可以通过纯 RL 激励，而无需 SFT，为该领域未来的发展铺平道路。

Open R1：全球最火爆的DeepSeek R1全开源复现项目（GitHub 19.5k星）

star_nwe的博客

02-14

1424

OpenAI 的 o1 模型展示了，当大型语言模型（LLM）在推理时使用更多计算资源时，它们在解决数学、编程和逻辑推理任务时的表现会显著提高。然而，OpenAI 推理模型背后的训练方法一直是一个保密的内容。DeepSeek-R1 是迄今为止第一个在表现上与 o1 相当甚至更好的开源推理模型（Reasoning LLM）。DeepSeek-R1 详细的技术报告，阐明了其训练方法的关键步骤。这个训练方法包含了几项创新，最引人注目的是。

DeepSeek-R1：通过强化学习激发大语言模型的推理能力

02-10

DeepSeek-R1是首个利用强化学习（Reinforcement Learning, RL）激发大型语言模型推理能力的研究项目，它提出了两个初步的推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通过大规模强化学习训练的模型...

2025北京大学：DeepSeek-R1及类强推理模型开发解读.pdf

03-07

技术对比探讨中提到了STaR-based Methods和RL-based Methods在推理路径上的对比，以及“蒸馏”和强化学习驱动技术路线的分析。PRM（Pattern Recognition Module）和MCTS（Monte Carlo Tree Search）作为DeepSeek-R1...

DeepSeek-R1: 强化学习驱动的强推理模型技术详解与展望

02-27

首先介绍了DeepSeek-R1通过纯粹的强化学习（RL）驱动，无需人类专家标注即可显著提高推理性能。特别是展示了 DeepSeek-R1零监督微调模型的出色性能及其背后的创新机制，如群相对策略优化（GRPO）、基于规则的奖励...

DeepSeek-R1：通过强化学习激发大语言模型的推理能力 .pdf

02-13

为了解决这些问题并进一步提高推理性能，DeepSeek AI研究团队提出了DeepSeek-R1，这是通过大规模强化学习（RL）训练出的推理模型，它在初步步骤中没有进行有监督的微调（SFT），同时引入了DeepSeek-R1-Zero。...

DeepSeek-R1 开源项目使用教程

最新发布

gitblog_01121的博客

03-26

337

DeepSeek-R1 开源项目使用教程【免费下载链接】DeepSeek-R1 项目地址: https://gitcode.com/gh_mirrors/de/DeepSeek-R1 ...

首个DeepSeek-R1全开源复现Open-R1来了

m0_63171455的博客

01-27

5762

huggingface出品，，短短一天已经冲上1.9k Star，这个仓库仍在建设中。的目标是构建流程中缺失的部分，以便每个人都可以复现并在此基础上进行开发。项目设计简单，主要包含以下内容：src/open_r1 包含用于训练和评估模型以及生成合成数据的脚本：grpo.py：使用GRPO在给定数据集上训练模型。sft.py：在数据集上对模型进行简单的SFT（监督微调）。evaluate.py：在R1基准测试上评估模型。generate.py：使用Distilabel从模型生成合成数据。

DeepSeek-R1详细解读！

m0_56255097的博客

02-10

1545

DeepSeek-R1确实很惊艳，论文中的两大贡献。

大模型入门实战：通过 HuggingFace 调用 Llama3

python12345_的博客

01-10

2090

至此，我们成功演示了如何通过 Hugging Face 的 Transformers 调用 Llama 模型，并获取了模型的回答。但是如果你的需求只是简单地调用模型，而无需进行微调或复杂的部署，可以尝试使用 Ollama。它不仅操作更加便捷，还提供了开箱即用的 RESTful 接口，适合快速集成到生产环境中。下一篇，我将会讲解如何通过 Ollama 下载部署 Llama 模型并调用。

DeepSeek-R1发布，性能不输Open AI-R1，看来大模型决赛圈，90%会被淘汰！

ytt0523_com的博客

01-21

1293

DeepSeek-R1论文：HuggingFace链接：看官方论文：DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。蒸馏小模型超越 OpenAI o1-mini。

deepseek系列学习

爱吃火锅的博客

01-30

3595

快来看看deepseek的黑科技

DeepSeek-R1模型架构深度解读：从零构建DeepSeek-R1

Python_cocola的博客

02-19

1495

01.引言DeepSeek R1 的整个训练过程不过是在其基础模型（即 deepseek V3）之上使用不同的强化学习方法而已。从本地运行的微小基础模型开始，我们将使用 DeepSeek R1 技术报告从零开始构建一切，同时在每个步骤中都会介绍相关理论知识。闲话少说，我们直接开始吧！02.代码概述本博客中显示的所有代码都可以在 GitHub 代码库中找到：代码库的组织结构如下:03 .环境搭建使用以下命令克隆该代码仓并使用以下命令安装所需的库：现在，让我们导入所需的库。 04 .训练数据集虽然论文没有明确

刚刚，DeepSeek又开源R1部署最佳实践！

m0_70486148的博客

02-15

1642

嘿，大家好！这里是一个专注于AI智能体的频道~DeepSeek刚刚又发补给了，补给4件套。包含2个配置项，不要设置system prompt + temperature 设置为0.6。还有大家比较期待的官网的，接入搜索的R1的prompt设计及最佳用法！以及如何缓解R1系列模型绕过思考的解决办法。在DeepSeek 官网版本，没有使用系统提示词，而是为文件上传和网络搜索设计了两个特定的提示词以获得更好的用户体验。并且temperature设置为 0.6。

Deepseek免费无限量API无需本地部署就可用最大70B蒸馏模型

shykevin的博客

02-05

3675

一、DeepSeek概述 2025年1月20日，DeepSeek正式发布 DeepSeek-R1 模型，并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。DeepSeek-V3和DeepSeek-R1两款大模型，成本价格低廉，性能与OpenAI相当，让硅谷震惊，甚至引发了Meta内部的恐慌，工程师们开始连夜尝试复...