英伟达开源放大招，韩松团队超高效语言模型

作者：英伟达开源放大招，韩松团队超高效语言模型

韩松团队推出了一款全新的基于后神经架构搜索的高效语言模型——Jet-Nemotron。性能不输Qwen3、Gemma、Llama，准确率更高，在生成吞吐量上实现最高53.6倍加速，在预填充阶段达到6.1倍加速！ Jet-Nemotron-2B在吞吐量上比Qwen3-1.7B快47倍，KV缓存只要1/47。 🧩 所以，它是怎么做到的？ Jet-Nemotron基于PostNAS（后神经架构搜索）技术，不是从零造模型，而是在现有大模型上“改造升级”。它从一个预训练的全注意力模型出发，并直接继承其多层感知机权重，且在整个过程中保持这些权重被冻结（不再更新）。优化过程有 4 步： 1️⃣ 挑选全注意力层位置：不乱放，通过训练一个“一次性”超级网络 (once-for-all super network)，自动学习应该在哪些位置使用全注意力层，效果比均匀分布更好。 2️⃣ 选线性注意力模块：测试了6种，最后用上了最优的Gated DeltaNet。 3️⃣ 设计新模块JetBlock：研究团队引入一种名为JetBlock的新型线性注意力模块，使用一个卷积核生成器 (kernel generator)，能够根据输入内容动态地生成因果卷积核 (dynamic causal convolution kernels)，然后将这些卷积核应用于 V (值) 词元上。此外，它还移除了在 Q (查询) 和 K (键) 上的冗余静态卷积，从而简化了计算流程。 4️⃣ 硬件感知搜索：不光看参数量，将KV缓存大小固定为原始设计的规格，并对key维度、value维度以及注意力头数进行了小规模的网格搜索，让硬件跑得更顺。 🧪 实测表现数学任务：2B取得49.6的平均准确率，比Qwen3-1.7B高 6.3，速度快 47 倍。常识推理：2B平均准确率62.0，超越所有基线模型。检索任务：2B的表现优于除 Qwen3-1.7B-Base之外的所有基线模型，4B达到了76.2的最佳平均准确率，同时与Qwen3相比仍保持21倍的速度提升。编码任务：2B、4B全面超越对手。长上下文：虽然全注意力层少，但效果并不输大模型。好消息是，研究团队计划在GitHub上公开代码和模型，目前正等待法律合规审核。 #最新模型 #开源 #英伟达 #华人团队 #语言模型 #ai #AI

⚡ 技术纵深 · 洞见未来

英伟达开源放大招，韩松团队超高效语言模型

深度推荐 · 延伸阅读