摘要:英伟达最新推出的Jet-Nemotron小模型系列(2B/4B参数)凭借两项关键技术突破——后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,在多项基准测试中显著超越当前主流开源模型,并在H100 GPU上实现最高53倍的推理吞吐量提升。
一、模型概述
Jet-Nemotron是英伟达全华人团队研发的高效语言模型系列,包含2B和4B两个参数量版本。该模型在数学推理(Math)、代码生成(Code)、常识推理(Commonsense)、信息检索(Retrieval)和长上下文处理(Long Context)等任务中均表现出色,综合性能超越Qwen3、Gemma3、Llama3.2等同类模型。
二、核心创新点
1. 后神经架构搜索(PostNAS)
PostNAS是一种基于预训练模型的架构优化方法,其核心思想是在不重新训练的前提下,对现有Transformer架构进行高效搜索与适配。具体流程包括:
-
冻结MLP层,仅对注意力模块进行优化;
-
通过由粗到细的搜索策略,先确定全注意力层的最优位置,再选择线性注意力模块类型;
-
结合硬件感知搜索,在保持吞吐量的同时提升模型容量与精度。
该方法显著降低了架构探索的成本与风险,并揭示出预训练模型中不同注意力层的重要性分布。
2. JetBlock线性注意力模块
JetBlock是一种融合动态卷积与硬件感知设计的新型线性注意力模块,其特点包括:
-
在相同训练数据和训练方案下,性能显著优于Mamba2等现有线性注意力设计;
-
在保持高训练和推理吞吐量的同时,提升模型表达能力;
-
尤其适合长序列处理场景,显著降低KV缓存开销。

最低0.47元/天 解锁文章
653

被折叠的 条评论
为什么被折叠?



