← 返回信息流
推理引擎·更新于 2026/05/16 16:41

Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo(AMD Ryzen AI MAX+ 395)上对 llama.cpp 的 MTP(Multi-Token Prediction)功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型,对比开启与关闭 MTP 时的端到端性能。结果显示,27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒(-22.46%),生成吞吐从 7.61 t/s 提升至 17.98 t/s(+136%),但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢,生成速度虽有提升但 Prompt 处理降幅更大,多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著,但对大模型或短上下文场景收益有限。

速读

llama.cpp MTP 在 Strix Halo 上让 27B 模型生成速度提升 136%

相关源 (1)