← 返回信息流
推理引擎·更新于 2026/04/27 21:20

vLLM v0.20.0 发布:DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

vLLM 发布 v0.20.0 版本,包含 752 次提交、320 位贡献者。核心变更:首次支持 DeepSeek V4 推理,修复 DSV4/3.2 的 DSML token 泄露问题;默认 CUDA 版本升级至 13.0(跟随 PyTorch 2.11.0),PyTorch 底座同步升级至 2.11,属于环境依赖的 breaking change;新增 Python 3.14 支持;兼容 HuggingFace transformers>=v5。推理引擎方面:FlashAttention 4 重新成为 MLA prefill 默认后端(支持 head-dim 512 及 SM90+ 上的 paged-KV);TurboQuant 2-bit KV cache 新 attention 后端上线,实现 4 倍容量压缩;新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。

速读

vLLM v0.20.0 以752次提交和320位贡献者首次支持DeepSeek V4,默认CUDA 13.0并升级PyTorch 2.11

相关源 (1)