论文速递·2 天前
现有 AI Agent 评测多聚焦于单文件或合成数据,缺乏对真实工作区中大规模文件依赖关系的评估。为此,研究者提出 Workspace-Bench,构建了包含 5 种工人画像、74 种文件类型、20,476 个文件(最大 20GB)的真实工作区,并设计了 388 个任务(共 7,399 条评分细则),每个任务附带文件依赖图,要求 Agent 完成跨文件检索、上下文推理与自适应决策。评测 4 种 Agent 框架与 7 个基础模型后发现,最佳 Agent 仅达约 60%,远低于人类 80.7%,平均仅 43.3%。同时提供 Workspace-Bench-Lite(100 任务子集),评测成本降低约 70%。