InfoPie · AI · 大模型 · 数据库

5月10日周日

1 条

推理引擎·7 天前

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

vLLM 发布 v0.20.2 小版本补丁，包含 6 个提交，主要修复三个问题：DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径，修复 MTP=1 场景下的挂起问题；V1 引擎 KV 缓存管理器中的 KV 块分配失败错误；Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。

5月10日 周日

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

5月10日周日