推理引擎·更新于 2026/05/04 10:36

vLLM v0.20.1 发布：DeepSeek V4 推理稳定性与性能优化

vLLM 发布 v0.20.1 补丁版本，重点围绕 DeepSeek V4 模型进行稳定性和性能改进。核心变化包括：多流 pre-attention GEMM 支持及可配置阈值调优、BF16/MXFP8 all-to-all 通信、PTX cvt 指令加速 FP32→FP4 转换、集成 tile 内核优化 head 计算。修复了 persistent topk 在 TopK=1024 时的死锁问题、inter-CTA 初始化竞态条件、AOT 编译缓存加载错误、torch inductor 错误、重复 RoPE 缓存初始化等关键缺陷。此外修复了 max_num_batched_token 未正确捕获到 CUDA graph、expandable_segments 自动禁用等通用问题。无破坏性变更。

速读

vLLM v0.20.1 为 DeepSeek V4 修复 TopK=1024 死锁并加速 FP32 到 FP4 转换

vLLM v0.20.1 发布：DeepSeek V4 推理稳定性与性能优化

相关源 (1)