推理引擎·更新于 2026/05/10 07:37
vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配
vLLM 发布 v0.20.2 小版本补丁,包含 6 个提交,主要修复三个问题:DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径,修复 MTP=1 场景下的挂起问题;V1 引擎 KV 缓存管理器中的 KV 块分配失败错误;Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。
速读
vLLM v0.20.2 由6位贡献者提交6个提交,修复了DeepSeek V4稀疏注意力与KV缓存分配失败等问题
相关源 (1)
- vLLM Releases · 2026/5/10 07:37:57https://github.com/vllm-project/vllm/releases/tag/v0.20.2