全华人团队,比Qwen3快47倍!英伟达Jet-Nemotron小模型横空出世

AI 圈这几年什么最火?毫无疑问,是拼命把模型做大,从几十亿参数冲到万亿级别。

在人工智能发展的浪潮中,AI 巨无霸们都在购买芯片堆大模型,“越大越好”似乎已成为一种不可动摇的信仰。我们习惯了将最强大的通用大语言模型视为驱动一切AI应用的核心引擎。然而,全球AI硬件领导者,芯片生成者英伟达却给人一种反直觉的颠覆性疑问:小模型才是Agents的未来

今天,英伟达正式推出Jet-Nemotron系列小模型,参数只有2B和4B,却直接在多项任务准确率上碾压不少庞然大物,推理效率更是最高飙升53.6倍!

推动这一颠覆性成果的,是一支全华人团队

2025年初的CES展上,黄仁勋就已经明确点题:“基于AI Agent的Agentic AI,是接下来的重头戏。”那时候英伟达就亮出了NIMs和NeMo两大技术平台,帮助企业快速部署和管理AI Agent。

他还提到,英伟达要做的是给像ServiceNow、SAP、Oracle这些行业大佬们“递刀子”——提供开发AI Agent需要的工具包、库和模型,把整个AI生态的地基打好。

英伟达一直钟爱小模型,上一周他们刚刚发布了只有9B大小的NVIDIA Nemotron Nano 2模型,今天Jet-Nemotron又横空出世。

很多人可能一开始都想不通:为什么是小模型?大模型不是知识渊博、全能无敌吗?

小模型,真的已经强到离谱。

例如6.7B参数的Toolformer学会调API之后,性能直接超车175B的GPT-3;7B的DeepSeek-R1-Distill在多项推理任务上居然打赢了Claude3.5和GPT-4o。

这说明什么?“小”不等于“弱”。只要设计得好、训得巧,小模型在特定场景下完全可以比大模型还能打。

更别说,AI Agent里的大部分任务根本就不是开放聊天那种——而是高度结构化、格式固定的“机器对机器”对话,比如把用户指令转成一个标准JSON调用。

这种活儿,小模型干起来反而更利索:响应快、资源省、行为稳,不会随便瞎编乱造。反观大模型,成本高还难控制。

说到成本,就更致命了。

一个7B参数的小模型,推理成本比70B~175B的大模型便宜10~30倍!微调也快,几小时就能搞定,不用像大模型那样一等好几周。

便宜又好用,边缘设备也能跑,迭代起来飞快——这种经济性和灵活性,才是真正能落地的AI。

那么,Jet-Nemotron到底强在哪?

它最核心的突破,是两个技术大招:PostNAS(训练后架构探索适配)和新型线性注意力模块 JetBlock

以往要找更好的模型架构,都得从头开始训练,耗时耗力还烧钱。但PostNAS不一样——它直接在一个已经预训练好的Transformer模型上动手术。

通过将PostNAS应用于基线模型后,在所有基准测试上都取得了显著的准确率提升。

怎么做?四步走:

  1. 找准注意力层放哪儿最有效:不是每个注意力层都一样重要,PostNAS先锁定哪些层最关键;

  2. 线性注意力块择优上岗:系统性地测试现有模块,看谁又快又准;

  3. 设计新模块JetBlock:用动态卷积替代静态卷积,让模型能自适应学习;

  4. 硬件感知架构搜索:不光看参数量,还看实际硬件上跑得多快、多省。

通过PostNAS,引入了JetBlockJ新型线性注意力模块。它将动态卷积与硬件感知架构搜索相结合,以增强线性注意力,在保持与先前设计相似的训练和推理吞吐量的同时,实现了显著的准确率提升。

在同样的数据、同样的训练设置下,JetBlock的表现明显优于之前的明星模块Mamba2 Block。

光说不练假把式,是骡子是马,拉出来遛遛。

Jet-Nemotron-2B和4B在多项权威测试中全面开挂——对手是Qwen3、Gemma3、Llama3.2这些狠角色,但它俩依然做到了准确率更高、速度还更快

具体来看:

  • Jet-Nemotron-2B:比Qwen3-1.7B-Base快21倍,MMLU、MMLU-Pro、数学、检索等指标全面领先;

  • Jet-Nemotron-4B:比Qwen3-1.7B-Base快47倍,准确度继续往上飙。

尤其是长上下文处理,上下文越长,Jet-Nemotron的优势越明显——解码吞吐量甚至能翻50多倍。

Jet-Nemotron简直就是“六边形战士”,雷达图几乎全满,又猛又稳。

如果说技术是“硬实力”,那英伟达带来的更是一场“架构观念”的地震。

以前的AI Agent是怎么搞的?基本靠调用一两个通用大模型(比如GPT-4o、Claude 4),让它们既当“大脑”,又当“打工人”——从理解意图到生成代码全包圆。

这种模式,像极了软件工程早期的单体架构:笨重、昂贵、难迭代。API调用烧钱如流水,响应延迟动不动抽风,明明很多任务根本不需那么大算力,却硬是用“牛刀杀鸡”。

就像从“单体应用”走向“微服务”,AI Agent也应该进入“小模型微服务”时代:

  • 专家小模型:每人只干一件事,但做到极致。比如专门解析意图的、专门生成代码的、专门抽JSON的……它们小巧、高效、能独立迭代,Jet-Nemotron就是典型;

  • 通用大模型:退居二线,当“API网关”或者复杂任务调度员,只处理真正需要通识和深推的难题;

  • 智能控制器:轻量级路由,根据任务类型把请求精准分配给最合适的模型。

这样一来,整个系统就变得又灵活又省钱——绝大多数请求用小模型处理,成本暴降;单个模型挂了不影响整体;出新功能就加个新模型,像乐高一样随便组合。

Jet-Nemotron的发布,不只是一款模型的成功,更是一个强烈的信号:AI正在从小圈子技术走向普及化

对企业来说,以后IT部门可能真得像“人力资源部”一样,去管理一支“AI员工团队”——谁擅长什么、怎么调度、如何协作,成了新的核心竞争力。

对硬件行业,边缘计算和专用推理芯片会迎来新机会。模型越小,硬件门槛越低,AI才能真正“飞入寻常百姓家”。

而对整个AI生态来说,英伟达选择开源Jet-Nemotron(代码和模型即将发布),无疑是在推动一场“小模型运动”。它不是在堆护城河,而是在搭舞台——让更多人能上台跳舞。

从硬件到软件,从训练到推理,从大模型崇拜到小模型实用主义——英伟达又一次踩准了节奏。

Jet-Nemotron用实力证明:AI的未来,未必是巨无霸的;精准、高效、经济的小模型,同样能掀起革命

所以,如果你还在无脑追大模型,是时候重新思考了。

未来的AI Agent,不会再是“一个大模型包打天下”,而是——“一支精锐模型战队,分工协作,各司其职”。

这一局,英伟达又跑在了前面。

论文地址:https://arxiv.org/pdf/2508.15884

项目地址:https://github.com/NVlabs/Jet-Nemotron

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值