← 返回信息流
推理引擎·更新于 2026/04/18 05:44

vLLM v0.19.1 发布:升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug

vLLM 发布 v0.19.1 补丁版本,基于 v0.19.0 升级 Transformers 至 v5.5.3,并集中修复 Gemma4 模型的多个流式工具调用 Bug。关键修复包括:流式工具调用中 JSON 分隔符残留导致非法 JSON、HTML 内容重复、布尔/数值类型切分后拼接错误、裸 null 被转为字符串 "null" 等问题。此外新增对 Gemma4 量化 MoE、Eagle3 投机解码、LoRA 适配器加载的支持,并修复了 PT 模型因缺少 BOS token 导致的 token 重复问题。

速读

vLLM v0.19.1 升级 Transformers 5.5.3,修复 Gemma4 流式工具调用及 BOS 缺失等多项 Bug

相关源 (1)