推理引擎·3 天前
llama.cpp 发布 b9141 版本,核心变化是 server 和 webui 端新增 continue_final_message 标志,用于兼容 vLLM 和 transformers API。该标志与 add_generation_prompt false 配合时,会触发已有的 prefill_assistant 代码路径,实现对话续写功能;与 add_generation_prompt true 互斥,违反时返回 HTTP 400。WebUI 的 Continue 按钮已接入此标志。本次发布不涉及底层推理逻辑改动,纯 API 对齐,为后续 per-template prefill 改造铺路。