← 返回信息流
大模型·更新于 2026/05/16 07:19

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0,超越 Gemini 2.5 Pro

Qwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%(±3.2)的成绩,超越 Gemini 2.5 Pro(19.6%)和 Qwen3-Coder-480B(23.9%),证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%,表明 10B 以下本地模型也能在硬基准上被量化评估。

速读

Qwen3.6-35B-A3B 配合 little-coder 脚手架在 Terminal-Bench 2.0 上超越 Gemini 2.5 Pro

相关源 (1)