韩松团队推出了一款全新的基于后神经架构搜索的高效语言模型——Jet-Nemotron。 性能不输Qwen3、Gemma、Llama,准确率更高,在生成吞吐量上实现最高53.6倍加速,在预填充阶段达到6.1倍加速! Jet-Nemotron-2B在吞吐量上比Qwen3-1.7B快47倍,KV缓存只要1/47。 🧩 所以,它是怎么做到的? Jet-Nemotron基于PostNAS(后神经架构搜索) 技术,不是从零造模型,而是在现有大模型上“改造升级”。 它从一个预训练的全注意力模型出发,并直接继承其多层感知机权重,且在整个过程中保持这些权重被冻结(不再更新)。 优化过程有 4 步: 1️⃣ 挑选全注意力层位置:不乱放,通过训练一个“一次性”超级网络 (once-for-all super network),自动学习应该在哪些位置使用全注意力层,效果比均匀分布更好。 2️⃣ 选线性注意力模块:测试了6种,最后用上了最优的Gated DeltaNet。 3️⃣ 设计新模块JetBlock:研究团队引入一种名为JetBlock的新型线性注意力模块,使用一个卷积核生成器 (kernel generator),能够根据输入内容动态地生成因果卷积核 (dynamic causal convolution kernels),然后将这些卷积核应用于 V (值) 词元上。此外,它还移除了在 Q (查询) 和 K (键) 上的冗余静态卷积,从而简化了计算流程。 4️⃣ 硬件感知搜索:不光看参数量,将KV缓存大小固定为原始设计的规格,并对key维度、value维度以及注意力头数进行了小规模的网格搜索,让硬件跑得更顺。 🧪 实测表现 数学任务:2B取得49.6的平均准确率,比Qwen3-1.7B高 6.3,速度快 47 倍。 常识推理:2B平均准确率62.0,超越所有基线模型。 检索任务:2B的表现优于除 Qwen3-1.7B-Base之外的所有基线模型,4B达到了76.2的最佳平均准确率,同时与Qwen3相比仍保持21倍的速度提升。 编码任务:2B、4B全面超越对手。 长上下文:虽然全注意力层少,但效果并不输大模型。 好消息是,研究团队计划在GitHub上公开代码和模型,目前正等待法律合规审核。 #最新模型 #开源 #英伟达 #华人团队 #语言模型 #ai #AI