创造历史!DeepSeek超越ChatGPT登顶中美AppStore

机器之心报道

机器之心编辑部

DeepSeek 20 日发布以来获得的热度至今依然没有任何消退的迹象。一觉醒来,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。

4304cf9740dffa50e9c6d5822ccfa708.jpeg

不少网友都认为这是他们当之无愧。

5853ec82818fd25e6f36bdf2609934f0.jpeg

毕竟,正如 a16z 合伙人、Mistral 董事会成员 Anjney Midha 说的那样:从斯坦福到麻省理工,DeepSeek-R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

bd833a83f665d1683e04f144b2f73f2c.png

甚至有网友认为 DeepSeek 是 OpenAI 与英伟达都未曾预见的黑天鹅。

c8d4dac605086da807c1bc650a0359a6.png

与此同时,围绕 DeepSeek-R1 的各路消息也正层出不穷 ——Hugging Face 等组织正在尝试复现 R1、DeepSeek 之前接受的采访被翻译成了英文版并正在 AI 社区引发热议、开发了 Llama 系列模型的 Meta 似乎陷入了焦虑之中…… 下面我们就来简单盘点一下最近两天围绕 DeepSeek 的几个热点议题。

5c31003f4ea79441646a28612d0e527b.png

DeepSeek 创始人梁文锋之前接受的采访被翻译成了英文版,正在 AI 社区引发热议

AI 社区开启 R1 复现热潮

DeepSeek-R1 是开源的,但也没有完全开源 —— 相关的训练数据、训练脚本等并未被公布出来。不过,因为有技术报告,也就有了复现 R1 的指导方针,也因此,最近有不少人都在强调复现 R1 的重要性与可行性。

3a6a65ab466c85516ab887e029e531ca.png

db47a63d36fc0bc3d8acc1d94afd77eb.png

𝕏 博主 @Charbax 总结了 DeepSeek 文档中没有介绍的地方以及复现 R1 的一些难点。

  • 训练流程的细节。虽然其技术报告中介绍了强化学习阶段和蒸馏,但省略了关键的实现细节,包括超参数(例如,学习率、批量大小、奖励缩放因子)、用于生成合成训练数据的数据管道(例如,如何编排 800K 蒸馏样本)、需要人类偏好对齐的任务的奖励模型架构(多语言输出的「语言一致性奖励」)。

  • 冷启动数据生成。报告中虽然提到了创建「高质量冷启动数据」(例如,人工标准、少样本提示)的过程,但缺乏具体的示例或数据集。

  • 硬件和基础设施。没有关于计算资源(例如,GPU 集群、训练时间)或软件堆栈优化(例如,DeepSeek-V3 的 AMD ROCM 集成)的详细信息。

  • 复现难题。缺少多阶段强化学习的脚本等组件。

当然,也确实有些团队已经开始行动了。

Open R1:复现一个真・开源版 R1

在复现 R1 的各式项目中,最受人关注的当属 Hugging Face 的 Open R1 项目。

  • 项目地址:https://github.com/huggingface/open-r1

Open R1 宣称是 DeepSeek-R1 的「完全开放复现(A fully open reproduction)」,可以补齐 DeepSeek 没有公开的技术细节。该项目目前还在进行中,已经完成的部分包括:

  • GRPO 实现

  • 训练与评估代码

  • 用于合成数据的生成器

358bbcbdcc1eb8317ccc07c7ed537b5e.png

Hugging Face CEO Clem Delangue 的推文

据其项目介绍,Open R1 项目计划分三步实施:

424a0d4b7e26a10b4f8a47f720b4ea88.png

第一步:复现 R1-Distill 模型,具体做法是蒸馏一个来自 DeepSeek-R1 的高质量语料库。

第二步:复现 DeepSeek 用于创建 R1-Zero 的纯强化学习管线。这一步涉及到编排一个新的大规模数据集,其中包含数学、推理和代码数据。

第三步:通过多阶段训练从基础模型得到强化学习微调版模型。

7B 模型 8K 样本复现 R1-Zero 和 R1

另一个复现 R1 的团队是来自香港科技大学的何俊贤(Junxian He)团队,并且他们采用的基础模型和样本量都非常小:基于 7B 模型,仅使用 8K 样本示例,但得到的结果却「惊人地强劲」。

  • 项目地址:https://github.com/hkust-nlp/simpleRL-reason

98d017d41f2083829199092df589905c.png

需要注意,该团队的这个实现的实验大都是在 R1 发布之前完成的。他们发现,仅使用 8K MATH 示例,7B 模型就能涌现出长思维链 (CoT)和自我反思能力,而且在复杂的数学推理上的表现也非常不错。

具体来说,他们从基础模型 Qwen2.5-Math-7B 开始,仅使用来自 MATH 数据集的 8K 样本直接对其进行强化学习。最终得到了 Qwen2.5-SimpleRL-Zero 与  Qwen2.5-SimpleRL。

或者按其博客的说法:「没有奖励模型,没有 SFT,只有 8K 用于验证的 Math 样本,得到的模型在 AIME 上成绩为(pass@1 准确率)33.3%、在 AMC 上实现了 62.5%、在 MATH 上实现 77.2%,优于 Qwen2.5-math-7B-instruct,可与使用多 50 倍数据和更复杂组件的 PRIME 和 rStar-MATH 相媲美。」

6ca42d9b54a31430713b3b39ac46b85f.png

Qwen2.5-SimpleRL-Zero 的训练动态

e44b3dd902a0843cc5c975d643c356e8.png

所得模型与基线模型的 pass@1 准确度

基于 3B 模型用 30 美元复现 R1

TinyZero 则是一个尝试复现 DeepSeek-R1-Zero 的项目,据其作者、伯克利 AI 研究所在读博士潘家怡(Jiayi Pan)介绍,该项目是基于 CountDown 游戏实现的,完整配方有一句话就能说完:「遵照 DeepSeek R1-Zero 的算法 —— 一个基础语言模型、提示词和 ground-truth 奖励,然后运行强化学习。」

085a1bb550c3551c0f2b47ea2cdbfacd.png

实验过程中,模型一开始的输出很蠢笨,但逐渐发展出修改和搜索等策略。下面展示了一个示例,可以看到模型提出解决方案,自我验证,并反复修改,直到成功。

76114400a2f4d5dea9fe5dd511e7eb7a.png

实验中,该团队也得到了一些有意思的发现:

基础模型的质量很重要。0.5B 的小模型在猜测一个解答之后就会停止,而从 1.5B 规模开始,模型会开始学习搜索、自我验证、修正解答,从而可以得到远远更高的分数。

基础模型和指令模型都可行。实验发现,指令模型的学习速度更快,但性能会收敛到与基础模型同等的程度;同时指令模型的输出更加结构化、更可读。

具体采用什么强化学习算法并不重要。该团队尝试了 PPO、GRPO 和 PRIME,但它们的差异并不大。

模型的推理行为严重取决于具体任务。对于 CountDown 游戏,模型会学习执行搜索和自我验证;对于数值乘法,模型会学习使用分配律分解问题并逐步解决。

d4679d24692cc382ef71fc2639293aee.png

模型学会乘法分配律

而最惊人的是,整个项目的计算成本不到 30 美元。

Meta 的焦虑:下一代 Llama 可能赶不上 R1

数天前,机器之心报道文章《Meta 陷入恐慌?内部爆料:在疯狂分析复制 DeepSeek,高预算难以解释》引起广泛关注与讨论。

文章中, Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌。

今日,The Information 最新的文章爆料出更多内容。

e2943ae8d362945ee9bcca1c959b3800.png

在文章中,The Information 爆料称包括 Meta 人工智能基础设施总监 Mathew Oldham 在内的领导表示,他们担心 Meta Llama 的下一个版本性能不会像 DeepSeek 的那样好。

Meta 也暗示 Llama 的下一个版本将于本季度发布。

此外,文章也爆料,Meta 生成式 AI 小组和基础设施团队组织了四个作战室来学习 DeepSeek 的工作原理。

其中两个作战室,正在试图了解幻方是如何降低训练和运行 DeepSeek 模型的成本。其中一名员工表示:Meta 希望将这些技术应用于 Llama。

其中一些开发人员透露,尽管 Meta 的模型是免费的,但它们的运行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通过批量处理其模型客户的数百万条查询来降低价格。但是,使用 Llama 的小型开发人员却没有足够的查询来降低成本。

据一位直接了解情况的员工透露,第三个作战室正在试图弄清楚幻方可能使用哪些数据来训练其模型。

第四作战室正在考虑基于 DeepSeek 模型的新技术,重构 Meta 模型。Meta 考虑推出一个与 DeepSeek 相似的 Llama 版本,它将包含多个 AI 模型,每个模型处理不同的任务。这样,当客户要求 Llama 处理某项任务时,只需要模型的某些部分进行处理。这样做可以使整个模型运行得更快,并且以更少的算力来运行。

不知道,在这样的压力下,2025 年 Meta 会拿出什么样的开源模型?说不定,Meta 也会加入到复现 R1 的浪潮中。

b809d133dba6f4b6cf735f089a1c039d.png

不过可以预料的是,在 DeepSeek 这条鲶鱼的搅动下,新一年的大模型格局正在发生转变。

对新一年的 AI 技术发展与应用,你有什么样的期待?欢迎留言讨论。

参考链接:

https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley

在当今数字化教育蓬勃发展的背景下,校园网络作为教学与科研的关键基础设施,其重要性日益凸显。本文旨在探讨小型校园网络的规划与设计,以满足网络实验教学的需求,为相关专业师生提供一个高效、稳定且功能完备的网络实验环境,助力教学活动顺利开展,提升学生的实践能力和创新思维。 网络实验教学要求校园网络具备高度的灵活性与可扩展性。学生需在实验过程中模拟各种网络拓扑结构、配置不同网络设备参数,这就要求网络能够快速调整资源分配,适应多样化的实验场景。同时,为保证实验数据的准确性和实验过程的稳定性,网络的高可靠性与低延迟特性不可或缺。此外,考虑到校园内多用户同时接入的场景,网络还需具备良好的并发处理能力,确保每位用户都能流畅地进行实验操作。 采用层次化结构构建小型校园网络,分为核心层、汇聚层与接入层。核心层选用高性能交换机,负责高速数据转发与关键路由决策,保障网络主干的稳定运行;汇聚层连接不同教学区域,实现数据的汇聚与初步处理,通过划分虚拟局域网(VLAN)对不同专业或班级的实验流量进行隔离,避免相互干扰;接入层则直接连接学生终端设备,提供充足的接入端口,满足大量用户同时接入的需求,并通过端口安全策略限制非法设备接入,保障网络安全。 在设备选型上,核心层交换机需具备高吞吐量、低延迟以及丰富的路由协议支持能力,以满足复杂网络流量的转发需求;汇聚层交换机则注重VLAN划分与管理功能,以及对链路聚合的支持,提升网络的可靠性和带宽利用率;接入层交换机则需具备高密度端口、灵活的端口配置以及完善的用户认证功能。配置方面,通过静态路由与动态路由协议相结合的方式,确保网络路径的最优选择;在汇聚层与接入层设备上启用VLAN Trunk技术,实现不同VLAN间的数据交换;同时,利用网络管理软件对设备进行集中监控与管理,实时掌握网络运行状态,及时发现并解决潜在问题。 网络安全是校园网络规划的关键环节。在接入层设置严
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值