推理引擎·7 天前
NVIDIA 发布 Star Elastic,一种后训练方法应用于 Nemotron Nano v3,将 30B 参数的主检查点嵌套为 23B 和 12B 子模型,三者共存于同一检查点(支持 BF16/FP8/NVFP4)。核心技术是 Gumbel-Softmax 可学习路由器,将任意目标参数预算映射到最优嵌套配置,覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上,可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答,实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享,支持推理速度的滑动调节。