论文速递·2 天前
数据流时序归因:轻量级溯源新范式
数据溯源(provenance)在数据库查询解释和科学工作流审计中应用广泛,但细粒度溯源图随数据量超线性增长,在 Apache Flink 等流系统中扩展性差。本文提出 temporal attribution(时序归因),一种轻量级溯源形式,借鉴 Temporal Interaction Networks(TINs)对数据流算子间的量化数据交换进行建模,避免 tuple 级依赖元数据。作者将数据分为离散型和液态型,定义五种时序溯源查询类型,并提出基于状态的索引方法,旨在为大规模数据流分析提供实用工具。