推理引擎·更新于 2026/04/27 21:20

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

vLLM DeepSeek-V4 CUDA 13 PyTorch 2.11 KV Cache

vLLM 发布 v0.20.0 版本，包含 752 次提交、320 位贡献者。核心变更：首次支持 DeepSeek V4 推理，修复 DSV4/3.2 的 DSML token 泄露问题；默认 CUDA 版本升级至 13.0（跟随 PyTorch 2.11.0），PyTorch 底座同步升级至 2.11，属于环境依赖的 breaking change；新增 Python 3.14 支持；兼容 HuggingFace transformers>=v5。推理引擎方面：FlashAttention 4 重新成为 MLA prefill 默认后端（支持 head-dim 512 及 SM90+ 上的 paged-KV）；TurboQuant 2-bit KV cache 新 attention 后端上线，实现 4 倍容量压缩；新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。

速读

vLLM v0.20.0 以752次提交和320位贡献者首次支持DeepSeek V4，默认CUDA 13.0并升级PyTorch 2.11

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

相关源 (1)