三张图速通 DeepSeek-R1 论文和技术原理

知乎:木尧(已授权)
链接:https://zhuanlan.zhihu.com/p/20538667476
编辑:「深度学习自然语言处理」公众号

总览

最近在研究和复现 DeepSeek-R1(671B 参数 MoE,激活 37B 参数,128K 上下文的深度思考模型)论文,于是画了三张图来把整个论文核心内容总结一下,欢迎大家讨论!核心是三组模型:

  • 一是纯强化学习(后文简称 RL)方案训的 DeepSeek-R1-Zero 验证技术方案可行,Reasoning 能力提升;

  • 二是 80w 有监督微调(后文简称 SFT)+ 类似刚才 RL 方案训练的 DeepSeek-R1,能力对标 OpenAI o1;

  • 三是直接拿刚才 80w 对 Qwen/Llama 系列模型 SFT 蒸馏出来的小模型,能力对标 OpenAI o1-mini。

先上图!

b235110f2e6564ed445996704f81bcce.png
图一:DeepSeek-R1-Zero 训练
901773ad5df7dfe23ed3232d1a7c0e5c.png
图二:DeepSeek-R1 训练
3c190f853f137d3e0ec1039ea9b2465e.png
图三:DeepSeek-R1-Distill 系列小模型蒸馏

分别展开三张图

图一:DeepSeek-R1-Zero 训练
24607c0390f9725d38b7a759aee2b741.png
图一:DeepSeek-R1-Zero 训练

先说意义:DeepSeek-R1-Zero 首次通过纯 RL 而不用任何 SFT 激发 LLM 的推理能力,让模型自己探索解决复杂问题的 CoT,生成能自我验证(self-verification)、反思(reflection)的 long-CoT。

再看动机:RL在推理任务中已被证明具有显著的效果,然而之前的工作严重依赖于监督数据,收集耗时费力。所以能不能让 LLM 通过纯 RL 进行自我进化嘞࿱

### 关于腾讯 DeepSeek 片查询 对于查找与腾讯 DeepSeek 相关的具体23张片这一需求,当前环境并不支持直接展示或检索特定数量的片资源。不过,可以提供如何利用编程手段来实现从网络获取指定关键词相关片的方法。 ```python import requests from bs4 import BeautifulSoup def get_images(keyword, num_of_images=23): url = f"https://www.example.com/search?q={keyword}&tbm=isch" headers = {"User-Agent": "Mozilla/5.0"} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') images = [] for img in soup.find_all('img'): if len(images) >= num_of_images: break src = img.get('src') or img.get('data-src') if src and not src.startswith('data:image'): images.append(src) return images[:num_of_images] images_urls = get_images("腾讯 DeepSeek", 23) for i, image_url in enumerate(images_urls, start=1): print(f"{i}: {image_url}") ``` 此代码片段仅作为示例说明,并不会实际运行成功,因为 `https://www.example.com` 是一个虚构网址,用于代替真实的搜索引擎地址。真实情况下应当替换为合法有效的API接口或是遵循目标网站robots协议下的爬虫逻辑[^1]。 值得注意的是,DeepSeek 的广泛应用不仅限于文字处理,在像理解方面也有着出色表现,这使得其能够更好地服务于多媒体内容分析场景中[^2]。 此外,随着技术的发展,像 DeepSeek 这样的大型语言模型正在持续优化自身的功能特性,包括但不限于提高多模态交互能力,从而更精准地满足用户多样化的需求[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值