LLM（十六）| s1：50美元大模型可以和DeepSeek R1媲美吗？

wshzd

于 2025-02-19 17:13:12 发布

阅读量819

点赞数 22

分类专栏： LLM 笔记文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wshzd/article/details/145734191

版权

本文翻译自：https://medium.com/@florian_algo/s1-explained-can-a-50-llm-rival-deepseek-r1-dc4b30c87837

自 2025 年 1 月以来，DeepSeek-R1模型一直备受关注。而李飞飞团队发布了名为s1的推理大模型，据说它只使用 1k 数据，与 OpenAI 的 o1 和 DeepSeek-R1 等顶级模型的性能相当，成本仅为 50 美元。

出于对它的功能的好奇，我深入研究了 s1 论文。以下是我以简单的 Q&A 形式找到的内容——以及一些想法和见解。

一、s1 真的匹配甚至超越 OpenAI o1 和 DeepSeek-R1 吗？

图 1： s1-32B 是一个开放且样本高效的推理模型。

如图 1 所示，s1 没有超过 o1 甚至 o1-mini。

至于 DeepSeek-R1，s1 达不到要求，尤其是与 DeepSeek-R1 从 800K 数据中蒸馏出来的 32B 模型相比，差距很大。

因此，说 s1 与这些顶级模型“竞争”并不完全公平。

二、那么 s1 在哪些方面表现良好呢？

如图 1 所示，s1 总体性能优于 o1-preview 和 Sky-T1。它在 AIME 和 MATH 上也超过了

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wshzd 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。