← 返回信息流
推理引擎·更新于 2026/05/16 16:48

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

llama.cpp 发布 b9180 版本,核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码(speculative decoding)。该版本新增了 draft-mtp 模型标识,允许目标模型在推测解码中回滚至多 draft_max 步,通过存储 GDN(Gated Delta Net)中间状态实现部分序列回滚(partial seq_rm)。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug,并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。

速读

llama.cpp b9180 新增 MTP 推测解码与 GDN 部分回滚支持

相关源 (1)