推理引擎·19 天前
vLLM v0.20.0 发布:DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级
vLLM 发布 v0.20.0 版本,包含 752 次提交、320 位贡献者。核心变更:首次支持 DeepSeek V4 推理,修复 DSV4/3.2 的 DSML token 泄露问题;默认 CUDA 版本升级至 13.0(跟随 PyTorch 2.11.0),PyTorch 底座同步升级至 2.11,属于环境依赖的 breaking change;新增 Python 3.14 支持;兼容 HuggingFace transformers>=v5。推理引擎方面:FlashAttention 4 重新成为 MLA prefill 默认后端(支持 head-dim 512 及 SM90+ 上的 paged-KV);TurboQuant 2-bit KV cache 新 attention 后端上线,实现 4 倍容量压缩;新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。