推理引擎·更新于 2026/05/09 11:57

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上，通过 llama.cpp 的 MTP（Multi-Token Prediction）分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型，实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率，上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载，为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线，需从源码编译并应用 draft PR。

速读

12GB 显存跑 35B MoE 达 80 tok/s 128K 上下文

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

相关源 (1)