更新于 2026/06/29 21:40

Ray Data LLM 发布，吞吐量达 vLLM 同步引擎两倍

Anyscale 发布 Ray Data LLM，一种面向生产级 LLM 推理的数据感知服务框架。在同等硬件条件下，其吞吐量达到 vLLM 同步引擎的 2 倍。

核心技术在于将请求批处理与数据流水线深度耦合：利用 Ray Data 的流式数据管道，在 GPU 计算的同时并行执行 tokenization、反 tokenization 和预处理，消除 CPU-GPU 间的空闲等待。同时支持动态批大小与连续批处理，减少调度开销。

对于高吞吐、延迟不敏感的离线推理场景（如批量评估、数据标注），Ray Data LLM 提供了比传统同步推理引擎更优的工程选择。但该方案不适用于低延迟在线服务场景。

速读

Ray Data LLM 吞吐量达 vLLM 同步引擎 2 倍

相关源 (1)