论文速递·更新于 2026/05/15 04:00
AI Agent 在 2 万文件工作区中仅达 43% 准确率,Workspace-Bench 发布
现有 AI Agent 评测多聚焦于单文件或合成数据,缺乏对真实工作区中大规模文件依赖关系的评估。为此,研究者提出 Workspace-Bench,构建了包含 5 种工人画像、74 种文件类型、20,476 个文件(最大 20GB)的真实工作区,并设计了 388 个任务(共 7,399 条评分细则),每个任务附带文件依赖图,要求 Agent 完成跨文件检索、上下文推理与自适应决策。评测 4 种 Agent 框架与 7 个基础模型后发现,最佳 Agent 仅达约 60%,远低于人类 80.7%,平均仅 43.3%。同时提供 Workspace-Bench-Lite(100 任务子集),评测成本降低约 70%。
速读
AI Agent在2万文件工作区中平均准确率仅43%,最佳60%远低于人类80.7%
相关源 (1)
- arXiv cs.DB · 2026/5/15 04:00:00https://arxiv.org/abs/2605.03596