更新于 2026/06/29 21:40
Ray Data LLM 发布,吞吐量达 vLLM 同步引擎两倍
Anyscale 发布 Ray Data LLM,一种面向生产级 LLM 推理的数据感知服务框架。在同等硬件条件下,其吞吐量达到 vLLM 同步引擎的 2 倍。
核心技术在于将请求批处理与数据流水线深度耦合:利用 Ray Data 的流式数据管道,在 GPU 计算的同时并行执行 tokenization、反 tokenization 和预处理,消除 CPU-GPU 间的空闲等待。同时支持动态批大小与连续批处理,减少调度开销。
对于高吞吐、延迟不敏感的离线推理场景(如批量评估、数据标注),Ray Data LLM 提供了比传统同步推理引擎更优的工程选择。但该方案不适用于低延迟在线服务场景。
速读
Ray Data LLM 吞吐量达 vLLM 同步引擎 2 倍
相关源 (1)
- Anyscale Blog · 1970/1/1 00:00:00https://anyscale.com/blog/ray-data-llm-2x-throughput-vs-vllm