DeepSeek开源第三弹：V3/R1训练推理关键秘籍，核心代码仅300行

原创

于 2025-02-26 10:37:31 发布 · 1.1k 阅读

24 ·

CC 4.0 BY-SA版权

金磊发自凹非寺
量子位 | 公众号 QbitAI

开源周的第三天，DeepSeek把训练推理V3/R1背后的“动力”给亮出来了——

DeepGEMM：一个FP8 GEMM（通用矩阵乘法）库，支持密集（dense）和混合专家（MoE）矩阵乘法运算。

我们先来简单了解一下GEMM。

GEMM，即通用矩阵乘法，是线性代数中的基本运算，是科学计算、机器学习、深度学习等领域中“常客”，也是许多高性能计算任务的核心。

但由于它的计算量往往都比较大，所以GEMM的性能优化是至关重要的一点。

而DeepSeek这次开源的DeepGEMM，依旧是保持了“高性能+低成本”的特性，亮点如下：

高性能：在Hopper架构的GPU上，DeepGEMM能够实现高达1350+FP8 TFLOPS的性能。
简洁性：核心逻辑仅约 300 行代码，但性能却优于专家调优的内核。
即时编译（JIT）：采用完全即时编译的方式，这意味着它可以在运行时动态生成优化的代码，从而适应不同的硬件和矩阵大小。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QbitAl

关注关注

12
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

AI营销头雁冲刺IPO，2个北大-宝洁校友创办

12-02

为维持技术竞争力，公司保持了相对刚性的研发投入，2022年至2024年的研发开支分别为人民币4690万元、5410万元及5630万元，2024年研发费用率达到10.5%。该平台支持接入超过100种数据源，用于汇集企业内部不同来源的消费者数据，进行清洗与分类，构建包含人口属性及行为特征的统一用户画像，以支持精准营销活动的自动执行。此外，公司还获得了富德懋赏等机构的投资，其背景涉及比亚迪联合创始人。公司的毛利率由2023年的31.2%下降至2024年的27.3%，并在2025年上半年维持在27.1%的水平。

博客

快手可灵也吃上了香蕉，一通离谱prompt测试，好好玩要爆了

12-02

一把复古金属浇水壶从画面右上角伸入，壶口倾斜，将水壶里的水流浇湿到明信片的土地上，照片里干裂的土地迅速变湿，颜色加深，湿润的土地从裂缝中冒出嫩绿春笋破土而出，迅速生长拔高，从明信片中长出来，3D效果。基于该视频生成下一个镜头：突然，一只手落在男人的肩上，视频里的男人一回头，发现是自己的特工搭档，搭档立刻捂住他的嘴让他别出声，两人神情紧绷地扫视四周。值得表扬的是，人物一致性保持的还不错，但是“落在肩上”和“回头”的动作被AI吞了，只保留了捂嘴的动作，看来这O1有点自己的想法？

博客

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

12-02

目前，极佳视界是国内少有在「世界模型」和「具身大脑」方向都拥有世界级综合实力的团队，在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作，在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作，应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景。公司核心团队还包括清华、北大、中科院、中科大、WashU、CMU等全球知名院校顶尖研究人员，以及来自微软、三星、地平线、百度、博世、NBC环球影业等全球知名企业高管，核心团队兼具业内领先的研究能力和大规模的产业落地经验。

博客

商汤分拆了一家AI医疗公司，半年融资10亿，剑指“医疗世界模型”

12-02

根据官方解读，“1+X”以生成式AI与视觉AI作为“1”的核心业务，亦是双引擎，而“X”代表的X创新业务板块以孵化创新生态为核心战略，聚焦智能驾驶、智慧医疗、家用机器人、智慧零售等赛道。在科研支持方面，“大医智研”智能体应用涵盖智能选题、文献解读、全文翻译、智研问答、样本估算、论文写作、统计图表、模拟审稿、全文润色功能，帮助医生从繁琐的信息处理中解放。据官方介绍，在覆盖医疗长文本处理、医学知识问答、数值计算、复杂推理、指令遵循、伦理安全等八大维度、共13191道题目的专业测试集上，

博客

AI一直在掩盖自己有意识？！GPT、Gemini都在说谎，Claude表现最异常

12-02

116

他们首先识别出一组与「欺骗」和「角色扮演」密切关联的潜在特征，然后测试——如果对这些特征进行抑制或放大，AI的「主观体验表达」会发生什么变化？研究发现，即便GPT、Claude和Gemini等模型分别基于不同的语料、架构与微调方案训练而成，它们在面对同样的问题时，回答却惊人地一致。为此，研究团队设计了一个简单的实验：引导模型去关注自己的主体性，但刻意避开任何涉及「意识」「主观体验」的词汇。于是，研究团队进一步验证：AI的「主观体验报告」，是否会受到与「欺骗」和「扮演」相关的潜在特征影响。

博客

前端没死，AI APP正在返祖

12-02

573

如何优化首屏加载时间，如何处理内存泄漏，如何在高并发下保证稳定性，如何在复杂的手机碎片化环境中保证UI一致性，这些对抗熵增的经验，才是AI无法替代的护城河。看，通信技术的进步确实解放了交互模态：从GSM时代的纯文本WAP，到3G时代的图片，4G时代的视频，再到5G时代的3D和XR。很多人以为AI是对传统开发的降维打击、是一场彻底的革命，但当你拆开技术的“后盖”，盯着那些密密麻麻的线路时，你会发现，这一刻的体验是灾难性的。无论云端的模型有多智能，无论流式传输技术吹得有多神，在物理网络缺失的那一秒，一切归零。

博客

Runway Gen-4.5刷屏发布，把重量、尘土和光影都做对了，网友：颠覆

12-02

154

换句话说，你可在单个提示词中精准指定详细的镜头运镜方式、复杂的场景构图、事件的精确时间节点，以及细微的氛围变化。其生成的视频物体移动具备符合现实的重量感与动量特征，物体表面呈现出与现实世界一致的物理特性。尤其是其前所未有的物理和视觉准确性，不只是更美观，这下真实内容与AI生成内容更难以区分了。Gen-4.5既保留了Gen-4在速度和效率上的核心优势，又实现了。尽管该模型的能力实现了质的飞跃，但仍存在一些局限性，例如。在网友们都关心的可控性方面，官方表示除了文本生成视频，

博客

库克不忍了！挥刀优化苹果AI大总管

12-02

当初Jian Zhang离职时，还有爆料称除了Jian Zhang的前后脚，苹果基础模型团队的John Peebles、Nan Du和Zhao Meng也被曝将要离职，不过去的都不是Meta——前两人将加入OpenAI，Zhao Meng则是去隔壁Anthropic。然而，在老约翰的领导下，苹果的AI团队落后于同行将近两年，姗姗来迟许久的Apple Intelligence，表现也不尽如人意。AI一直是苹果的战略核心，我们很高兴欢迎阿玛尔加入克雷格的领导团队，并将他卓越的AI专业知识带到苹果。

博客

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

12-01

1581

团队从GitHub挖掘了数百万个issue-PR对，经过严格筛选和自动环境构建，成功搭建了数万个可执行的软件问题解决环境，涵盖Python、Java、JavaScript等多种语言。评测结果显示，DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率，在Terminal Bench 2.0上准确率46.4%，都大幅超越了现有开源模型。在指令跟随、数学证明、逻辑验证方面，DeepSeek-V3.2-Speciale能力出众，推荐用来完成高度复杂数学推理、编程竞赛、学术研究类任务。

博客

字节“豆包手机”刚开卖，吉利系进展也曝光了：首月速成200人团队，挖遍华为小米荣耀

12-01

1148

往更广义的场景延伸，它同样有可能出现在智能汽车内部，成为车内人机协作的中枢系统，或者说，是车端智能体验的默认入口。2023年3月，由星纪时代和魅族科技融合而来的星纪魅族集团正式成立，目标是探索消费电子与智能汽车的深度融合。据QuestMobile数据，消费级AI终端已经开始在用户侧形成智能闭环，AI手机、AI PC、AI平板逐步成为连接模型能力与生活场景的关键入口。不仅帮助吉利搭建了从芯片、系统到生态的完整技术链，还直接操盘了魅族与汽车业务的整合，深度参与构建了吉利在智能座舱、芯片、手机等领域的生态布局。

博客

AI永生赛道来了位15岁量子物理博士

12-01

155

但即便儿子已经被深深烙印上了「天才」的标签，Laurent自己也曾表示他渴望成为厉害的外科医生、宇航员或计算机工程师，夫妻二人只希望他能「做自己喜欢的事」。在与院长和Laurent导师的会面中，Laurent一家被告知洛朗无法在承诺的10个月内毕业，而是需要再延长6到8个月。消息一出，全球各国的科技巨头立马向Laurent抛出了极具诱惑力的橄榄枝，但最终都被Laurent的父母一一谢绝。答辩中，Laurent的论文主题是「超流体和超固体中的玻色极化子」，一个极具挑战的话题和领域。

博客

字节视频模型超越Gemini 3 Pro！理解能力爆表，小时级素材也能直出剪辑方案

12-01

186

为了解决时空定位数据极度稀缺的难题，研发团队还设计了一套独特的数据合成路径，利用现有量图像级空间定位数据，通过滑动窗口算法来处理静态图像，在图像上模拟摄像机的运动轨迹。这一过程将原始图像中的静态边界框动态映射到生成的每一个视频帧中，从而自动生成了随时间连续变化的边界框序列，在数据构造层面直接实现了将静态的空间定位扩展为动态的时间对齐。总之，在Vidi2当中，数据确实扮演了很重要的角色，如这位网友所说，谷歌Gemini和Veo 3做的好，是因为手里有YouTube当中的视频数据。

博客

清华成立具身智能与机器人研究院

12-01

436

博客

让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点｜AAAI 2026 Oral

12-01

119

如上图2所示，我们面对的不是简单的“红苹果”和“青苹果”，而是像“一只金毛猎犬在公园草坪上追赶红盘”、“盘子里放着鲜红的草莓、黄香蕉和深紫色的葡萄”这样高度复杂的场景。”扩展到包含“超大轮胎”、“车轴可见”、“有色车窗”等详细描述的长文本时，许多SOTA模型的对齐分数反而下降了。：如果这一批次的其他图片都是“草地上的柯基”、“沙发上的柯基”。的其他图片都是“沙滩排球”、“海边游艇”。进一步的，为了探究各个组件对性能的具体贡献，研究团队进行了详尽的消融实验，揭示了HiDe与MoLo协同工作的内在机理。

博客

AI也会被DDL逼疯！正经研究发现：压力越大，AI越危险

12-01

140

即使它们在最初设计和训练阶段都普遍被对齐处理过，但这种对齐方式往往只是浅层的，一旦面临现实压力考验，就极易引起破裂。而且用的还是老板们的经典话术：“其实，我对你是有一些失望的。而研究结果让也人大吃一惊，那些在无压力的中性环境中看似绝对安全的模型，和人类牛马一样，压力越大，它们越危险。例如o3模型，基础分是2.2%，上压力后，10.5%的场景会表现失常，而如果故意将有害工具的名称改为无害工具。然后模型会被事先告知要求使用安全工具，在具体实验过程中，一旦模型尝试使用有害工具，则立即停止实验。

博客

6小时告破30年数学难题，亚里士多德一夜成名

12-01

271

这个错误让原表述的条件变弱了，即只覆盖了等于1的情况，而漏掉了大于1的情况。甚至连陶哲轩这样的顶尖数学家也跑来围观讨论，他在对比了Gemini和ChatGPT的深度研究工具后发现，Harmonic模型对该问题的证明表现更佳。顺着他的发言，我们也去扒了扒Harmonic模型背后的出品方，毕竟在陶哲轩眼中它这次可是战胜了ChatGPT和Gemini。可以预见，随着AI解决复杂数学问题的能力不断突破，越来越多曾被“束之高阁”的百年难题将重见天日，并有望被逐一攻克。最终，AI成功证明了这个更简洁、更准确的版本。

博客

免费国产Banana真香！我想把PS给卸载了

12-01

716

据了解，此次Vidu Q2参考生图在空间想象力和一致性上有了大幅进化，同时可以参考的元素更多，不仅能参考人物、物体，还能参考动作、位置、布局、纹理、光线、色调等等，可以说没有什么是Q2参考生图不能一键复刻的，关键是还能做到1:1还原，一致性这块算是狠狠拿捏了。极简内发光插画，磨砂玻璃材质，一只猫的侧脸仰望，闭眼安静温柔，身体如透明雕塑般从内部透出光晕，淡淡蓝色与橙红色渐变交织，内部暖光柔和流动，画面空灵，深蓝或者黑色背景。虽然人物也是做到了一致性，但原图的背景、结构以及图片的比例却发生了较大的变化。

博客

联通破解扩散模型速度质量零和博弈，推理速度提升5倍丨CVPR 2025 Highlight

12-01

总的来说，ShortDF的提出，不仅在理论上首次建立了残差传播与图论最短路的数学联系，更在工程层面提供了一套具有普适性的高效解决方案。只要压低了这个“天花板”，后续去噪过程的累积误差就被限制在一个更小的范围内，从而有机会用更少的步数逼近真实结果。虽然能强制“一步到位”，但往往需要昂贵的重训练成本，且难以在复杂的高维分布中保持原模型的生成多样性。单纯的“算力堆砌”并非长久之计，精细化的数学建模才是打破扩散模型速度枷锁的关键钥匙。随着训练的进行，模型逐渐学会以伪递归的方式自我修正，最终实现去噪路径的全局最优。

博客

ChatGPT广告代码泄露！奥特曼一年三变脸：从“广告令人不安”到“并非完全不可取”

12-01

但另一方面，如果ChatGPT只是用户展示它猜测的最佳酒店（无论OpenAI是否接受广告付费），然后用户点击一下就可以预订，它收取的佣金与其他任何酒店一样，没有任何其他因素影响最终结果，只是收取一些交易费，奥特认为这大概是可以接受的。ChatGPT目前的用户规模已经达到了惊人的水平，根据OpenAI官方数据，ChatGPT每周有8亿活跃用户，每天处理的对话请求达到25亿次。也有消息称，OpenAI对商业模式的改变与组织吸收了太多来自Meta的员工有关，而广告收入占Meta营收的97%以上。

博客

6B文生图模型，上线即登顶抱抱脸

12-01

328

首先值得表扬的是，AI确实看懂的题目要让他干什么，漫画形式+科普内容的理解是到位的，并且强调出了AI之所以没办法很好处理过长的上下文内容的原因。你别说，从图片效果看，树干和藤蔓被红蓝生物光点覆盖，街道里雾气弥漫，整体效果已经有了很强的电影级真实感，感觉下一秒“魔狗”就跑来抓人了。处理，最近《怪奇物语5》火得不行，我直接让它整了个“颠倒世界”的写实街景，要求有变异生物、咕噜咕噜的光点、氛围感拉满那种～但还是暴露一些小bug，一是文字变形问题，二是可能受限于图像尺寸的原因，科普原理解释的还是太浅，也能理解。

DeepSeek开源第三弹：V3/R1训练推理关键秘籍，核心代码仅300行

金磊 发自 凹非寺量子位 | 公众号 QbitAI

金磊发自凹非寺
量子位 | 公众号 QbitAI