推理引擎·更新于 2026/05/09 11:57
llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s
Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上,通过 llama.cpp 的 MTP(Multi-Token Prediction)分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型,实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率,上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载,为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线,需从源码编译并应用 draft PR。
速读
12GB 显存跑 35B MoE 达 80 tok/s 128K 上下文
相关源 (1)
- r/LocalLLaMA · 2026/5/9 11:57:52https://www.reddit.com/r/LocalLLaMA/comments/1t82zxv/80_toksec_and_128k_context_on_12gb_vram_with/