推理引擎·更新于 2026/05/10 07:37

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

vLLM DeepSeek-V4 KV Cache MoE CUDA Graph

vLLM 发布 v0.20.2 小版本补丁，包含 6 个提交，主要修复三个问题：DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径，修复 MTP=1 场景下的挂起问题；V1 引擎 KV 缓存管理器中的 KV 块分配失败错误；Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。

速读

vLLM v0.20.2 由6位贡献者提交6个提交，修复了DeepSeek V4稀疏注意力与KV缓存分配失败等问题

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

相关源 (1)