杭州新贵 DeepSeek 的新模型提供了出色的性能,可能会改变培训成本的公式。

新功能:DeepSeek-V3 是一个开放的大型语言模型,在关键基准上的表现优于 Llama 3.1 405B 和 GPT-4o,并在编码和数学方面取得了优异的成绩。除了涉及军事用途、伤害未成年人、生成虚假信息和类似限制的应用程序外,权重都是开放的。您可以在此处下载它们。
工作原理:DeepSeek-V3 是一个混合专家 (MoE) 转换器,包含 6710 亿个参数,其中 370 亿个参数随时处于活动状态。该团队在 279 万个 GPU 小时内训练了该模型——不到训练 Llama 3.1 405B 所需时间的十分之一,DeepSeek-V3 的表现远远优于后者——成本极低,仅为 560 万美元。
• 开发人员使用大约 15 万亿个 token 对其进行了训练,其中包括比 DeepSeek-V2 更大比例的编码和数学数据。他们使用 DeepSeek-R1 和 DeepSeek-V2.5 生成的输出对各种任务进行了微调。他们使用强化学习算法(称为组相对策略优化)进一步提高了其在不同领域的性能。
• 早期的研究表明,训练预测接下来的两个 token 会比学习预测一个 token 提高性能。作者实施了此过程。该模型学会了像往常一样预测第一个 token,并使用一组额外的层来学习预测第二个 token。推理时不使用额外的层。
• 继 DeepSeek-V2 之后,DeepSeek-V3 使用多头潜在注意力,与其他注意力变体相比,它可以在执行过程中节省内存。
• 与 DeepSeek-V2 一样,新模型结合了专用(路由)和共享专家。该模型为特定输入选择 256 位专家中的 8 位,但它还使用一个共享专家来处理所有输入。
结果:在 DeepSeek 的测试中,DeepSeek-V3 全面超越了 Llama 3.1 405B 和 Qwen 2.5 72B,其性能与 GPT-4o 相比毫不逊色。
• DeepSeek-V3 在编码和数学任务中表现出色。在编码方面,DeepSeek-V3 在测试的七个基准测试中的五个中占据主导地位。然而,根据公开排行榜,DeepSeek-V3 在五个基准测试中的其中一个中输给了 o1。具体来说,在 Polyglot 上,测试模型根据多种编程语言的困难请求生成代码的能力,DeepSeek-V3(准确率为 48.5%)击败了 Claude Sonnet 3.5(准确率为 45.3%),尽管它输给了 o1(准确率为 61.7%)。
• 在语言任务中,它的表现与 Claude 3.5 Sonnet 不相上下,在某些任务中得分较高,而在其他任务中得分较低。
新闻背后:OpenAI 的 o1 模型之所以表现优异,得益于代理工作流程,它们可以反思自己的输出、使用工具等。DeepSeek 逆流而上,在不依赖代理工作流程的情况下取得了卓越的成果。
重要性:开放模型继续挑战封闭模型,为开发人员提供可以随意修改和部署的高质量选项。但更大的故事是 DeepSeek-V3 令人震惊的低训练成本。该团队并没有准确解释该模型如何在如此低的处理预算下实现出色的性能。(该论文将其归功于“细致的工程优化”。)但 DeepSeek 对 MoE 的稳步改进很可能是一个关键因素。同样是 MoE 模型的 DeepSeek-V2 与早期未采用 MoE 的 DeepSeek 67B 相比,在训练中节省了 40% 以上。 2022 年,微软发现,与密集模型相比,MoE 的训练成本降低了五倍,但性能却相同,谷歌和 Meta 报告称,MoE 的性能优于使用相同数量的 token 进行训练的密集模型。
我们在想:如果可以复制,DeepSeek 的结果对训练基础模型的经济性具有重大影响。如果现在建立一个 GPT-4o 级模型的成本确实在 500 万美元左右,那么将有更多团队能够训练此类模型,与 AI 巨头竞争的成本可能会大幅下降。
(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

相关阅读:
关于译者

关注公众号看其它原创作品
坚持提供对你有用的信息
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。

被折叠的 条评论
为什么被折叠?



