4B Qwen3逆袭671B DeepSeek！字节DAPO微调方法这么猛的吗

转载于 2025-06-16 14:59:01 发布 · 131 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247802098&idx=2&sn=e1725f584af4cc81c6c99bf9fd84cc4e&chksm=e93362e938d99819a23de70ef2c30512e632191e2fa74029b1e04a6bfbcff172df6efc5bc385&scene=126&sessionid=0

部署运行你感兴趣的模型镜像

梦晨发自凹非寺
量子位 | 公众号 QbitAI

4B小模型极限在哪里？

最新模型Jan-nano引起热议，它在智能体任务上超过671B的最新版DeepSeek-V3 0528，在SimpleQA基准上获得80.7分。

先来看一下它的实际表现，包括两个任务：

对研究某公司目前的扩张情况，该公司的扩张正威胁着另一家公司的市场份额，并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
汇总今日财经突发新闻，聚焦令人震惊的消息。

总结一下，Jan-nano的能力包括：

在正确的提示词下，可以进行深度研究
从搜索结果中有效地获取相关信息
针对MCP协议优化，可无缝集成各种MCP服务器调用工具

再来看一下官方评估结果，与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。

目前Jan-nano取得最高分80.7%，并且作者透露下一个版本的目标是85%。

不过研究团队Menlo Research特别提醒大家，Jan-Nano只是在这一个指标上优于Deepseek-671B，并且在测试中使用了基于MCP的方法。

我们完全理解4B模型有其局限性，但看看它能走到多远总是很有趣的。

具体来说，Jano在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法。

团队称将很快发布详细的技术报告，敬请期待。

谁是Menlo Research？

Menlo Research是一个专注于AI和机器人技术的开放研发实验室，其主要目标为构建机器人的”大脑”。

创始人为一对夫妻Daniel Ong与Nicole Zhu，Nicole Zhu在斯坦福读人机交互硕士期间休学创业，此前在谷歌做过高级工程师。

Menlo Research坚持用户拥有原则，产品都是开源的，设计为离线运行或自托管。

此前Menlo Research的核心产品是Jan，一个可以100%离线运行的开源AI助手应用。

Jan被定位为ChatGPT的替代品，曾在推出数月后，在没有风险投资支持的情况下超过百万次下载，

Jan的长远愿景是成为“自驱动计算机”，实现从用户操作计算机到计算机自主操作的转变，具体来说，规划中的能力包括。

将用户指令转化为直接行动
跨应用程序工作，无需手动切换
学习用户的特定工作模式
自主完成重复性任务

此外，Menlo Research还在新加坡Echelon展会上展出了一款人形机器人。

Jan-nano模型下载：
https://huggingface.co/Menlo/Jan-nano

Menlo Research：
https://menlo.ai

参考链接：
[1]https://www.reddit.com/r/LocalLLaMA/comments/1lbrnod/jannano_a_4b_model_that_can_outperform_671b_on_mcp/

— 完 —

📪 量子位AI主题策划正在征集中！欢迎参与专题365行AI落地方案，一千零一个AI应用，或与我们分享你在寻找的AI产品，或发现的AI新动向。

💬 也欢迎你加入量子位每日AI交流群，一起来畅聊AI吧～

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。