推理引擎·更新于 2026/05/10 00:48
NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理
NVIDIA 发布 Star Elastic,一种后训练方法应用于 Nemotron Nano v3,将 30B 参数的主检查点嵌套为 23B 和 12B 子模型,三者共存于同一检查点(支持 BF16/FP8/NVFP4)。核心技术是 Gumbel-Softmax 可学习路由器,将任意目标参数预算映射到最优嵌套配置,覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上,可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答,实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享,支持推理速度的滑动调节。
速读
NVIDIA Star Elastic 一个检查点内含30B/23B/12B三模型,通过Gumbel-Softmax路由器与共享KV cache实现小模型思考大模型作答
相关源 (1)
- r/LocalLLaMA · 2026/5/10 00:48:04https://www.reddit.com/r/LocalLLaMA/comments/1t8s83r/nvidia_ai_releases_star_elastic_one_checkpoint/