工具发布·2 天前
Croissant Baker:本地化ML数据集元数据生成工具
Croissant 已成为 ML 数据集元数据标准(JSON-LD 格式),NeurIPS 要求数据集投稿必须附带 Croissant 元数据。但现有生成流程通常依赖上传到公有平台,这对受管控的大型本地数据集不可行。本文发布 Croissant Baker,一个本地优先、开源的命令行工具,通过模块化 handler 注册表直接从数据集目录生成经过校验的 Croissant 元数据。在 140+ 数据集上评测,包括 MIMIC-IV(8.86 亿行、374 个 Parquet 文件),与人工标注或标准推导的 ground truth 对比,跨多个领域达到 97–100% 一致率。