推理引擎·更新于 2026/05/12 02:12

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现，将 llama.cpp 的物理微批大小（-ub）从默认 512 提升至 8192，同时将 --n-cpu-moe 从 26 调至 28（将更多 MoE 层卸载到 CPU 以腾出显存），可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s，提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s，下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。

速读

llama.cpp 调大 ubatch 并配合 --n-cpu-moe 可将 MoE 模型预填提速 5.5 倍

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

相关源 (1)