推理引擎·更新于 2026/05/16 16:48

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

llama.cpp 发布 b9180 版本，核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码（speculative decoding）。该版本新增了 draft-mtp 模型标识，允许目标模型在推测解码中回滚至多 draft_max 步，通过存储 GDN（Gated Delta Net）中间状态实现部分序列回滚（partial seq_rm）。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug，并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。

速读

llama.cpp b9180 新增 MTP 推测解码与 GDN 部分回滚支持

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

相关源 (1)