InfoPie · AI · 大模型 · 数据库

4月27日周一

1 条

推理引擎·19 天前

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

vLLM 发布 v0.20.0 版本，包含 752 次提交、320 位贡献者。核心变更：首次支持 DeepSeek V4 推理，修复 DSV4/3.2 的 DSML token 泄露问题；默认 CUDA 版本升级至 13.0（跟随 PyTorch 2.11.0），PyTorch 底座同步升级至 2.11，属于环境依赖的 breaking change；新增 Python 3.14 支持；兼容 HuggingFace transformers>=v5。推理引擎方面：FlashAttention 4 重新成为 MLA prefill 默认后端（支持 head-dim 512 及 SM90+ 上的 paged-KV）；TurboQuant 2-bit KV cache 新 attention 后端上线，实现 4 倍容量压缩；新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。

4月27日 周一

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

4月27日周一