推理引擎·更新于 2026/05/14 20:59
vLLM 发布 TurboQuant 全面评测:FP8 仍是 KV Cache 量化最佳默认方案
vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论:FP8(--kv-cache-dtype fp8)依然是生产环境的最佳默认选择,提供 2 倍 KV Cache 容量且精度损失可忽略,在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势,仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值,但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显,同时严重劣化延迟和吞吐,不适合生产部署。
速读
vLLM TurboQuant 评测显示 FP8 实现 2 倍 KV Cache 容量且精度无损,k8v4 容量更高但性能下降
相关源 (1)
- r/LocalLLaMA · 2026/5/14 20:59:45https://vllm.ai/blog/2026-05-11-turboquant