4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

4B小模型极限在哪里?

最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。

先来看一下它的实际表现,包括两个任务:

  • 对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。

  • 汇总今日财经突发新闻,聚焦令人震惊的消息。

总结一下,Jan-nano的能力包括:

  • 在正确的提示词下,可以进行深度研究

  • 从搜索结果中有效地获取相关信息

  • 针对MCP协议优化,可无缝集成各种MCP服务器调用工具

再来看一下官方评估结果,与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。

目前Jan-nano取得最高分80.7%,并且作者透露下一个版本的目标是85%。

不过研究团队Menlo Research特别提醒大家,Jan-Nano只是在这一个指标上优于Deepseek-671B,并且在测试中使用了基于MCP的方法。

我们完全理解4B模型有其局限性,但看看它能走到多远总是很有趣的。

具体来说,Jano在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法。

团队称将很快发布详细的技术报告,敬请期待。

谁是Menlo Research?

Menlo Research是一个专注于AI和机器人技术的开放研发实验室,其主要目标为构建机器人的”大脑”。

创始人为一对夫妻Daniel Ong与Nicole Zhu,Nicole Zhu在斯坦福读人机交互硕士期间休学创业,此前在谷歌做过高级工程师。

Menlo Research坚持用户拥有原则,产品都是开源的,设计为离线运行或自托管。

此前Menlo Research的核心产品是Jan,一个可以100%离线运行的开源AI助手应用。

Jan被定位为ChatGPT的替代品,曾在推出数月后,在没有风险投资支持的情况下超过百万次下载,

Jan的长远愿景是成为“自驱动计算机”,实现从用户操作计算机到计算机自主操作的转变,具体来说,规划中的能力包括。

  • 将用户指令转化为直接行动

  • 跨应用程序工作,无需手动切换

  • 学习用户的特定工作模式

  • 自主完成重复性任务

此外,Menlo Research还在新加坡Echelon展会上展出了一款人形机器人。



Jan-nano模型下载:
https://huggingface.co/Menlo/Jan-nano

Menlo Research:
https://menlo.ai

参考链接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1lbrnod/jannano_a_4b_model_that_can_outperform_671b_on_mcp/

—  —

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应,或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值