InfoPie · AI · 大模型 · 数据库

5月15日周五

1 条

论文速递·2 天前

AI Agent 在 2 万文件工作区中仅达 43% 准确率，Workspace-Bench 发布

现有 AI Agent 评测多聚焦于单文件或合成数据，缺乏对真实工作区中大规模文件依赖关系的评估。为此，研究者提出 Workspace-Bench，构建了包含 5 种工人画像、74 种文件类型、20,476 个文件（最大 20GB）的真实工作区，并设计了 388 个任务（共 7,399 条评分细则），每个任务附带文件依赖图，要求 Agent 完成跨文件检索、上下文推理与自适应决策。评测 4 种 Agent 框架与 7 个基础模型后发现，最佳 Agent 仅达约 60%，远低于人类 80.7%，平均仅 43.3%。同时提供 Workspace-Bench-Lite（100 任务子集），评测成本降低约 70%。

5月15日 周五

AI Agent 在 2 万文件工作区中仅达 43% 准确率，Workspace-Bench 发布

5月15日周五