推理引擎·7 天前vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配vLLM 发布 v0.20.2 小版本补丁,包含 6 个提交,主要修复三个问题:DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径,修复 MTP=1 场景下的挂起问题;V1 引擎 KV 缓存管理器中的 KV 块分配失败错误;Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。›1 条相关源