Anyscale 为其托管 Ray 平台新增了完全持久化的 Cluster Dashboard 和 Actor Dashboard。传统 Ray 仪表盘仅在集群运行时可用,一旦作业结束或集群关闭,历史状态即丢失。新方案将仪表盘数据持久化存储,用户可在作业完成后回溯查看集群资源使用曲线、Actor 生命周期、任务分布等关键指标,无需重新运行作业即可进行事后调试。技术核心是将 Ray 的运行时指标导出到外部存储后端,并通过独立于集群生命周期的 Web 服务提供查询接口。
Anyscale 发布博客,介绍如何用 Ray 构建可扩展的多模态数据管道。核心挑战在于图像、视频、音频、文本等异构数据需要不同的解码、清洗、增强逻辑,且数据量远超单机内存。文章提出基于 Ray Data 的架构:用 map/groupby/flat_map 等算子表达 ETL 流程,利用 Ray 的分布式对象存储和自动弹性调度处理 PB 级数据。关键设计包括:将 I/O 密集型解码与 GPU 密集型增强分离为不同 stage,通过 lazy 执行和 checkpoint 避免重复计算,以及用 Ray 的 actor 池管理外部 API 调用限流。
Anyscale 发布了 Agent Skills,一套面向 Ray 上 AI 工作负载的开发工具,旨在加速构建、调试和优化流程。核心能力包括自动性能分析、分布式任务追踪和智能错误定位,帮助工程师更快定位 Ray 集群中的瓶颈与异常。该工具直接集成到 Ray 生态中,降低了分布式 AI 应用的运维复杂度。