推理引擎·更新于 2026/05/10 00:48

NVIDIA 发布 Star Elastic：一个检查点内含 30B/23B/12B 三模型，零样本切片推理

NVIDIA 发布 Star Elastic，一种后训练方法应用于 Nemotron Nano v3，将 30B 参数的主检查点嵌套为 23B 和 12B 子模型，三者共存于同一检查点（支持 BF16/FP8/NVFP4）。核心技术是 Gumbel-Softmax 可学习路由器，将任意目标参数预算映射到最优嵌套配置，覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上，可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答，实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享，支持推理速度的滑动调节。

速读

NVIDIA Star Elastic 一个检查点内含30B/23B/12B三模型，通过Gumbel-Softmax路由器与共享KV cache实现小模型思考大模型作答

NVIDIA 发布 Star Elastic：一个检查点内含 30B/23B/12B 三模型，零样本切片推理

相关源 (1)