InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

2 条

推理引擎·17 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

llama.cpp 发布 b9180 版本，核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码（speculative decoding）。该版本新增了 draft-mtp 模型标识，允许目标模型在推测解码中回滚至多 draft_max 步，通过存储 GDN（Gated Delta Net）中间状态实现部分序列回滚（partial seq_rm）。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug，并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。

推理引擎·17 小时前

Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。

5月15日周五

1 条

推理引擎·1 天前

Orthrus 冻结主干网实现 7.8× 加速，输出分布与 Qwen3 完全一致

Orthrus 提出一种扩散注意力模块，注入冻结的 Qwen3-8B 自回归 Transformer 每层，实现最高 7.8× tokens/forward 加速。核心思路：扩散头并行投影 K=32 个 token，AR 头二次验证并接受最长匹配前缀，两路共享同一 KV cache。仅训练 16% 参数、<1B token、8×H200 上 24 小时。与 EAGLE-3、DFlash 等推测解码方案相比，无需外部草稿模型、无需独立 KV cache、零 TTFT 惩罚；KV 开销仅约 4.5 MiB。MATH-500 上接受长度 11.7 vs DFlash 7.9 vs EAGLE-3 3.5。单步去噪优于多步，KL 蒸馏优于 CE。局限：受限于冻结基座模型能力，仅 Qwen3 评估，仅支持贪心+拒绝采样。

5月10日周日

1 条

推理引擎·6 天前

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

5月9日周六

1 条

推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上，通过 llama.cpp 的 MTP（Multi-Token Prediction）分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型，实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率，上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载，为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线，需从源码编译并应用 draft PR。

4月16日周四

1 条

推理引擎·2026/4/16

Ollama v0.21.0 发布：Hermes 学习型 Agent 与 Gemma 4 MLX 支持

Ollama 发布 v0.21.0，核心亮点是 Hermes Agent——一个能根据用户工作流自动学习并创建技能的本地 Agent，通过 ollama launch hermes 即可启动。技术层面，新增 Gemma 4 在 Apple Silicon 上的 MLX 运行时支持，包含混合精度量化、Conv2d/Pad/RoPE 等算子封装；ollama launch 集成 Hermes 和 GitHub Copilot CLI，OpenCode 改为内联配置，且当模型列表未变化时不再重写配置文件。修复了 Gemma 4 Metal 编译错误、macOS 交叉编译触发 generate 的问题，以及 openclaw --yes 跳过频道配置的 bug。

昨天 · 5月16日 周六