大模型·更新于 2026/05/10 16:52

Claude Mythos 把 METR 基准测试曲线跑爆了

METR（Model Evaluation & Threat Research）发布的时间跨度基准测试中，Anthropic 的 Claude Mythos 模型表现远超此前所有模型，直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间，被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线，反映出模型在长周期自主任务中的能力跃升。

速读

Claude Mythos 在 METR 长周期自主任务基准测试中突破曲线，表现远超此前开放式评估记录

Claude Mythos 把 METR 基准测试曲线跑爆了

相关源 (1)