大模型·更新于 2026/05/10 16:52
Claude Mythos 把 METR 基准测试曲线跑爆了
METR(Model Evaluation & Threat Research)发布的时间跨度基准测试中,Anthropic 的 Claude Mythos 模型表现远超此前所有模型,直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间,被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线,反映出模型在长周期自主任务中的能力跃升。
速读
Claude Mythos 在 METR 长周期自主任务基准测试中突破曲线,表现远超此前开放式评估记录
相关源 (1)
- r/ClaudeAI · 2026/5/10 16:52:00https://i.redd.it/y7n4bcw4bc0h1.png