← 返回信息流
推理引擎·更新于 2026/05/09 11:57

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上,通过 llama.cpp 的 MTP(Multi-Token Prediction)分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型,实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率,上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载,为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线,需从源码编译并应用 draft PR。

速读

12GB 显存跑 35B MoE 达 80 tok/s 128K 上下文

相关源 (1)