论文速递·更新于 2026/05/15 04:00

AI Agent 在 2 万文件工作区中仅达 43% 准确率，Workspace-Bench 发布

AI Agent Benchmark File Dependency Workspace Learning Cross-file Retrieval

现有 AI Agent 评测多聚焦于单文件或合成数据，缺乏对真实工作区中大规模文件依赖关系的评估。为此，研究者提出 Workspace-Bench，构建了包含 5 种工人画像、74 种文件类型、20,476 个文件（最大 20GB）的真实工作区，并设计了 388 个任务（共 7,399 条评分细则），每个任务附带文件依赖图，要求 Agent 完成跨文件检索、上下文推理与自适应决策。评测 4 种 Agent 框架与 7 个基础模型后发现，最佳 Agent 仅达约 60%，远低于人类 80.7%，平均仅 43.3%。同时提供 Workspace-Bench-Lite（100 任务子集），评测成本降低约 70%。

速读

AI Agent在2万文件工作区中平均准确率仅43%，最佳60%远低于人类80.7%

AI Agent 在 2 万文件工作区中仅达 43% 准确率，Workspace-Bench 发布

相关源 (1)