推理引擎·更新于 2026/05/16 16:48
llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚
llama.cpp 发布 b9180 版本,核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码(speculative decoding)。该版本新增了 draft-mtp 模型标识,允许目标模型在推测解码中回滚至多 draft_max 步,通过存储 GDN(Gated Delta Net)中间状态实现部分序列回滚(partial seq_rm)。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug,并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。
速读
llama.cpp b9180 新增 MTP 推测解码与 GDN 部分回滚支持
相关源 (1)
- llama.cpp Releases · 2026/5/16 16:48:07https://github.com/ggml-org/llama.cpp/releases/tag/b9180