← 返回信息流
大模型·更新于 2026/05/10 16:52

Claude Mythos 把 METR 基准测试曲线跑爆了

METR(Model Evaluation & Threat Research)发布的时间跨度基准测试中,Anthropic 的 Claude Mythos 模型表现远超此前所有模型,直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间,被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线,反映出模型在长周期自主任务中的能力跃升。

速读

Claude Mythos 在 METR 长周期自主任务基准测试中突破曲线,表现远超此前开放式评估记录

相关源 (1)