推理引擎·17 小时前llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚llama.cpp 发布 b9180 版本,核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码(speculative decoding)。该版本新增了 draft-mtp 模型标识,允许目标模型在推测解码中回滚至多 draft_max 步,通过存储 GDN(Gated Delta Net)中间状态实现部分序列回滚(partial seq_rm)。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug,并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。›1 条相关源
推理引擎·17 小时前Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍Reddit 用户在高性能 APU Strix Halo(AMD Ryzen AI MAX+ 395)上对 llama.cpp 的 MTP(Multi-Token Prediction)功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型,对比开启与关闭 MTP 时的端到端性能。结果显示,27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒(-22.46%),生成吞吐从 7.61 t/s 提升至 17.98 t/s(+136%),但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢,生成速度虽有提升但 Prompt 处理降幅更大,多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著,但对大模型或短上下文场景收益有限。›1 条相关源
推理引擎·1 天前Orthrus 冻结主干网实现 7.8× 加速,输出分布与 Qwen3 完全一致Orthrus 提出一种扩散注意力模块,注入冻结的 Qwen3-8B 自回归 Transformer 每层,实现最高 7.8× tokens/forward 加速。核心思路:扩散头并行投影 K=32 个 token,AR 头二次验证并接受最长匹配前缀,两路共享同一 KV cache。仅训练 16% 参数、<1B token、8×H200 上 24 小时。与 EAGLE-3、DFlash 等推测解码方案相比,无需外部草稿模型、无需独立 KV cache、零 TTFT 惩罚;KV 开销仅约 4.5 MiB。MATH-500 上接受长度 11.7 vs DFlash 7.9 vs EAGLE-3 3.5。单步去噪优于多步,KL 蒸馏优于 CE。局限:受限于冻结基座模型能力,仅 Qwen3 评估,仅支持贪心+拒绝采样。›1 条相关源
推理引擎·6 天前推测解码加速取决于任务类型:代码快三倍,创作反而变慢Reddit 用户对 Qwen 3.6 27B 的 MTP(Multi-Token Prediction)推测解码进行系统测试,跑了 300+ 组基准后发现:推测解码的收益完全由任务类型主导,模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%,F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s,接近三倍;而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈:F16 模型体积 51GB,每次 decode 都要完整过一遍模型,被接受的 draft token 可以跳过这一步;而 Q4_K_M 仅 16GB,基线已经很快,draft 开销在不可预测的任务上得不偿失。›1 条相关源
推理引擎·7 天前llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/sReddit 用户分享在 12GB 显存的 RTX 4070 Super 上,通过 llama.cpp 的 MTP(Multi-Token Prediction)分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型,实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率,上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载,为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线,需从源码编译并应用 draft PR。›1 条相关源
推理引擎·2026/4/16Ollama v0.21.0 发布:Hermes 学习型 Agent 与 Gemma 4 MLX 支持Ollama 发布 v0.21.0,核心亮点是 Hermes Agent——一个能根据用户工作流自动学习并创建技能的本地 Agent,通过 ollama launch hermes 即可启动。技术层面,新增 Gemma 4 在 Apple Silicon 上的 MLX 运行时支持,包含混合精度量化、Conv2d/Pad/RoPE 等算子封装;ollama launch 集成 Hermes 和 GitHub Copilot CLI,OpenCode 改为内联配置,且当模型列表未变化时不再重写配置文件。修复了 Gemma 4 Metal 编译错误、macOS 交叉编译触发 generate 的问题,以及 openclaw --yes 跳过频道配置的 bug。›2 条相关源