推理引擎·2 天前
vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论:FP8(--kv-cache-dtype fp8)依然是生产环境的最佳默认选择,提供 2 倍 KV Cache 容量且精度损失可忽略,在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势,仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值,但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显,同时严重劣化延迟和吞吐,不适合生产部署。