全华人团队，比Qwen3快47倍！英伟达Jet-Nemotron小模型横空出世

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 363 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

AI 圈这几年什么最火？毫无疑问，是拼命把模型做大，从几十亿参数冲到万亿级别。

在人工智能发展的浪潮中，AI 巨无霸们都在购买芯片堆大模型，“越大越好”似乎已成为一种不可动摇的信仰。我们习惯了将最强大的通用大语言模型视为驱动一切AI应用的核心引擎。然而，全球AI硬件领导者，芯片生成者英伟达却给人一种反直觉的颠覆性疑问：小模型才是Agents的未来？

今天，英伟达正式推出Jet-Nemotron系列小模型，参数只有2B和4B，却直接在多项任务准确率上碾压不少庞然大物，推理效率更是最高飙升53.6倍！

推动这一颠覆性成果的，是一支全华人团队。

2025年初的CES展上，黄仁勋就已经明确点题：“基于AI Agent的Agentic AI，是接下来的重头戏。”那时候英伟达就亮出了NIMs和NeMo两大技术平台，帮助企业快速部署和管理AI Agent。

他还提到，英伟达要做的是给像ServiceNow、SAP、Oracle这些行业大佬们“递刀子”——提供开发AI Agent需要的工具包、库和模型，把整个AI生态的地基打好。

英伟达一直钟爱小模型，上一周他们刚刚发布了只有9B大小的NVIDIA Nemotron Nano 2模型，今天Jet-Nemotron又横空出世。

很多人可能一开始都想不通：为什么是小模型？大模型不是知识渊博、全能无敌吗？

小模型，真的已经强到离谱。

例如6.7B参数的Toolformer学会调API之后，性能直接超车175B的GPT-3；7B的DeepSeek-R1-Distill在多项推理任务上居然打赢了Claude3.5和GPT-4o。

这说明什么？“小”不等于“弱”。只要设计得好、训得巧，小模型在特定场景下完全可以比大模型还能打。

更别说，AI Agent里的大部分任务根本就不是开放聊天那种——而是高度结构化、格式固定的“机器对机器”对话，比如把用户指令转成一个标准JSON调用。

这种活儿，小模型干起来反而更利索：响应快、资源省、行为稳，不会随便瞎编乱造。反观大模型，成本高还难控制。

说到成本，就更致命了。

一个7B参数的小模型，推理成本比70B~175B的大模型便宜10~30倍！微调也快，几小时就能搞定，不用像大模型那样一等好几周。

便宜又好用，边缘设备也能跑，迭代起来飞快——这种经济性和灵活性，才是真正能落地的AI。

那么，Jet-Nemotron到底强在哪？

它最核心的突破，是两个技术大招：PostNAS（训练后架构探索适配）和新型线性注意力模块 JetBlock。

以往要找更好的模型架构，都得从头开始训练，耗时耗力还烧钱。但PostNAS不一样——它直接在一个已经预训练好的Transformer模型上动手术。

通过将PostNAS应用于基线模型后，在所有基准测试上都取得了显著的准确率提升。

怎么做？四步走：

找准注意力层放哪儿最有效：不是每个注意力层都一样重要，PostNAS先锁定哪些层最关键；
线性注意力块择优上岗：系统性地测试现有模块，看谁又快又准；
设计新模块JetBlock：用动态卷积替代静态卷积，让模型能自适应学习；
硬件感知架构搜索：不光看参数量，还看实际硬件上跑得多快、多省。

通过PostNAS，引入了JetBlockJ新型线性注意力模块。它将动态卷积与硬件感知架构搜索相结合，以增强线性注意力，在保持与先前设计相似的训练和推理吞吐量的同时，实现了显著的准确率提升。

在同样的数据、同样的训练设置下，JetBlock的表现明显优于之前的明星模块Mamba2 Block。

光说不练假把式，是骡子是马，拉出来遛遛。

Jet-Nemotron-2B和4B在多项权威测试中全面开挂——对手是Qwen3、Gemma3、Llama3.2这些狠角色，但它俩依然做到了准确率更高、速度还更快。

具体来看：

Jet-Nemotron-2B：比Qwen3-1.7B-Base快21倍，MMLU、MMLU-Pro、数学、检索等指标全面领先；
Jet-Nemotron-4B：比Qwen3-1.7B-Base快47倍，准确度继续往上飙。

尤其是长上下文处理，上下文越长，Jet-Nemotron的优势越明显——解码吞吐量甚至能翻50多倍。

Jet-Nemotron简直就是“六边形战士”，雷达图几乎全满，又猛又稳。

如果说技术是“硬实力”，那英伟达带来的更是一场“架构观念”的地震。

以前的AI Agent是怎么搞的？基本靠调用一两个通用大模型（比如GPT-4o、Claude 4），让它们既当“大脑”，又当“打工人”——从理解意图到生成代码全包圆。

这种模式，像极了软件工程早期的单体架构：笨重、昂贵、难迭代。API调用烧钱如流水，响应延迟动不动抽风，明明很多任务根本不需那么大算力，却硬是用“牛刀杀鸡”。

就像从“单体应用”走向“微服务”，AI Agent也应该进入“小模型微服务”时代：

专家小模型：每人只干一件事，但做到极致。比如专门解析意图的、专门生成代码的、专门抽JSON的……它们小巧、高效、能独立迭代，Jet-Nemotron就是典型；
通用大模型：退居二线，当“API网关”或者复杂任务调度员，只处理真正需要通识和深推的难题；
智能控制器：轻量级路由，根据任务类型把请求精准分配给最合适的模型。

这样一来，整个系统就变得又灵活又省钱——绝大多数请求用小模型处理，成本暴降；单个模型挂了不影响整体；出新功能就加个新模型，像乐高一样随便组合。

Jet-Nemotron的发布，不只是一款模型的成功，更是一个强烈的信号：AI正在从小圈子技术走向普及化。

对企业来说，以后IT部门可能真得像“人力资源部”一样，去管理一支“AI员工团队”——谁擅长什么、怎么调度、如何协作，成了新的核心竞争力。

对硬件行业，边缘计算和专用推理芯片会迎来新机会。模型越小，硬件门槛越低，AI才能真正“飞入寻常百姓家”。

而对整个AI生态来说，英伟达选择开源Jet-Nemotron（代码和模型即将发布），无疑是在推动一场“小模型运动”。它不是在堆护城河，而是在搭舞台——让更多人能上台跳舞。

从硬件到软件，从训练到推理，从大模型崇拜到小模型实用主义——英伟达又一次踩准了节奏。

Jet-Nemotron用实力证明：AI的未来，未必是巨无霸的；精准、高效、经济的小模型，同样能掀起革命。

所以，如果你还在无脑追大模型，是时候重新思考了。

未来的AI Agent，不会再是“一个大模型包打天下”，而是——“一支精锐模型战队，分工协作，各司其职”。

这一局，英伟达又跑在了前面。

论文地址：https://arxiv.org/pdf/2508.15884

项目地址：https://github.com/NVlabs/Jet-Nemotron

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。