推理引擎·更新于 2026/05/14 01:12
llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志
llama.cpp 发布 b9141 版本,核心变化是 server 和 webui 端新增 continue_final_message 标志,用于兼容 vLLM 和 transformers API。该标志与 add_generation_prompt false 配合时,会触发已有的 prefill_assistant 代码路径,实现对话续写功能;与 add_generation_prompt true 互斥,违反时返回 HTTP 400。WebUI 的 Continue 按钮已接入此标志。本次发布不涉及底层推理逻辑改动,纯 API 对齐,为后续 per-template prefill 改造铺路。
速读
llama.cpp b9141 新增与 vLLM 兼容的 continue_final_message 标志,需配合 add_generation_prompt false 使用
相关源 (1)
- llama.cpp Releases · 2026/5/14 01:12:22https://github.com/ggml-org/llama.cpp/releases/tag/b9141