推理引擎·29 天前
vLLM 发布 v0.19.1 补丁版本,基于 v0.19.0 升级 Transformers 至 v5.5.3,并集中修复 Gemma4 模型的多个流式工具调用 Bug。关键修复包括:流式工具调用中 JSON 分隔符残留导致非法 JSON、HTML 内容重复、布尔/数值类型切分后拼接错误、裸 null 被转为字符串 "null" 等问题。此外新增对 Gemma4 量化 MoE、Eagle3 投机解码、LoRA 适配器加载的支持,并修复了 PT 模型因缺少 BOS token 导致的 token 重复问题。