← 返回信息流
推理引擎·更新于 2026/05/10 07:37

vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

vLLM 发布 v0.20.2 小版本补丁,包含 6 个提交,主要修复三个问题:DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径,修复 MTP=1 场景下的挂起问题;V1 引擎 KV 缓存管理器中的 KV 块分配失败错误;Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。

速读

vLLM v0.20.2 由6位贡献者提交6个提交,修复了DeepSeek V4稀疏注意力与KV缓存分配失败等问题

相关源 (1)