推理引擎·更新于 2026/05/12 02:12
调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍
用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现,将 llama.cpp 的物理微批大小(-ub)从默认 512 提升至 8192,同时将 --n-cpu-moe 从 26 调至 28(将更多 MoE 层卸载到 CPU 以腾出显存),可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s,提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s,下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。
速读
llama.cpp 调大 ubatch 并配合 --n-cpu-moe 可将 MoE 模型预填提速 5.5 倍
相关源 (1)
- r/LocalLLaMA · 2026/5/12 02:12:28https://www.reddit.com/r/LocalLLaMA/comments/1tany5t/drastically_improve_prompt_processing_speed_for/