推理引擎·10 天前
vLLM V0到V1重构:RL训练前先保证推理正确性
ServiceNow AI 团队在 Hugging Face 博客发文,详细介绍了 vLLM 从 V0 到 V1 的重构历程。核心思路是:在引入强化学习(RL)等复杂功能之前,先确保推理引擎的正确性。团队重写了调度器、KV cache 管理和 PagedAttention 实现,修复了 V0 中因历史原因积累的多处正确性 bug。V1 版本将调度与执行解耦,统一了 block 管理策略,并引入了更严格的正确性测试套件。文章强调,对生产级推理引擎而言,"正确性优先于功能迭代"是基本原则。