系统与分布式·更新于 2026/05/14 08:00
用 Ray 搭建多模态数据管道:从异构文件到训练就绪
Anyscale 发布博客,介绍如何用 Ray 构建可扩展的多模态数据管道。核心挑战在于图像、视频、音频、文本等异构数据需要不同的解码、清洗、增强逻辑,且数据量远超单机内存。文章提出基于 Ray Data 的架构:用 map/groupby/flat_map 等算子表达 ETL 流程,利用 Ray 的分布式对象存储和自动弹性调度处理 PB 级数据。关键设计包括:将 I/O 密集型解码与 GPU 密集型增强分离为不同 stage,通过 lazy 执行和 checkpoint 避免重复计算,以及用 Ray 的 actor 池管理外部 API 调用限流。
速读
Ray Data 通过 lazy 执行与 checkpoint 分离 I/O 和 GPU 增强,用 actor 池管理 API 限流处理 PB 级多模态数据
相关源 (1)
- Anyscale Blog · 2026/5/14 08:00:00https://anyscale.com/blog/architecting-multimodal-data-pipelines-that-scale-with-ray