推理引擎·更新于 2026/05/04 10:36
vLLM v0.20.1 发布:DeepSeek V4 推理稳定性与性能优化
vLLM 发布 v0.20.1 补丁版本,重点围绕 DeepSeek V4 模型进行稳定性和性能改进。核心变化包括:多流 pre-attention GEMM 支持及可配置阈值调优、BF16/MXFP8 all-to-all 通信、PTX cvt 指令加速 FP32→FP4 转换、集成 tile 内核优化 head 计算。修复了 persistent topk 在 TopK=1024 时的死锁问题、inter-CTA 初始化竞态条件、AOT 编译缓存加载错误、torch inductor 错误、重复 RoPE 缓存初始化等关键缺陷。此外修复了 max_num_batched_token 未正确捕获到 CUDA graph、expandable_segments 自动禁用等通用问题。无破坏性变更。
速读
vLLM v0.20.1 为 DeepSeek V4 修复 TopK=1024 死锁并加速 FP32 到 FP4 转换
相关源 (1)
- vLLM Releases · 2026/5/4 10:36:26https://github.com/vllm-project/vllm/releases/tag/v0.20.1