更新于 2026/06/30 18:32

ScarfBench 发布：评估 AI Agent 迁移企业 Java 框架能力

IBM Research 联合 Hugging Face 发布 ScarfBench 基准测试，专门评估 AI Agent 在企业级 Java 框架迁移任务中的表现。该基准覆盖从 Spring 到 Jakarta EE 等主流框架的迁移场景。

ScarfBench 包含 120 个真实 Java 迁移任务，每个任务附带测试用例验证迁移正确性。评测维度包括代码正确性、编译通过率、运行时行为一致性，以及迁移后的性能变化。初步结果显示，当前最强模型在复杂迁移任务上成功率不足 40%。

该基准填补了企业级代码迁移评测的空白，为 Agent 框架在遗留系统现代化场景中的实用性提供了量化标尺。对从事 Java 生态工具链和 Agent 工程化的团队具有直接参考价值。

速读

IBM 发布 ScarfBench，评估 AI Agent 迁移企业 Java 框架的能力

相关源 (1)