InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

3 条

大模型·14 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

Reddit 用户用同一段 prompt（单 HTML 文件 + Canvas 实现汽车驾驶动画，含视差滚动、车轮旋转、光影效果）对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本（Q4_K_M/Q8），在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行，Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s，而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量，而非标准 benchmark 分数。

推理引擎·17 小时前

Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。

大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0，超越 Gemini 2.5 Pro

Qwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%（±3.2）的成绩，超越 Gemini 2.5 Pro（19.6%）和 Qwen3-Coder-480B（23.9%），证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%，表明 10B 以下本地模型也能在硬基准上被量化评估。

5月15日周五

2 条

论文速递·2 天前

AI Agent 在 2 万文件工作区中仅达 43% 准确率，Workspace-Bench 发布

现有 AI Agent 评测多聚焦于单文件或合成数据，缺乏对真实工作区中大规模文件依赖关系的评估。为此，研究者提出 Workspace-Bench，构建了包含 5 种工人画像、74 种文件类型、20,476 个文件（最大 20GB）的真实工作区，并设计了 388 个任务（共 7,399 条评分细则），每个任务附带文件依赖图，要求 Agent 完成跨文件检索、上下文推理与自适应决策。评测 4 种 Agent 框架与 7 个基础模型后发现，最佳 Agent 仅达约 60%，远低于人类 80.7%，平均仅 43.3%。同时提供 Workspace-Bench-Lite（100 任务子集），评测成本降低约 70%。

论文速递·2 天前

PersonalHomeBench：智能家居Agent评测框架发布

arXiv 论文提出 PersonalHomeBench，一个用于评估基础模型在个性化智能家居环境中作为 Agent 助手的基准测试。该基准通过迭代过程逐步构建丰富的家庭状态，生成个性化、上下文相关的任务，并提供 PersonalHomeTools 工具箱支持家庭信息检索、设备控制和情境理解。实验表明，随着任务复杂度增加，模型性能系统性下降，在反事实推理和部分可观测场景下失败明显，后者需要有效的工具调用来收集信息。

5月14日周四

1 条

大模型·3 天前

开发者实测：Claude Code Opus 4.7 零错误完胜 GPT-5.5 Codex，但价格差距在缩小

一位开发者用两个真实任务（PR 分类机器人与实时代码审查 UI）对比了 Claude Code（Opus 4.7）和 GPT-5.5 Codex（通过 Cursor）。Claude 在 12 分钟内构建 36 个文件，首次运行零错误，总成本约 $2.50；Codex 因 Cursor 环境问题未能完成第一个任务，第二个任务需补丁修复无限循环，架构更紧凑（28 个文件），成本约 $2.04（便宜 18%）。作者认为复杂架构任务仍首选 Opus，但 Codex 在紧凑型任务中已具备竞争力，定价差距首次引起关注。

5月12日周二

2 条

推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现，将 llama.cpp 的物理微批大小（-ub）从默认 512 提升至 8192，同时将 --n-cpu-moe 从 26 调至 28（将更多 MoE 层卸载到 CPU 以腾出显存），可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s，提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s，下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。

大模型·5 天前

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

OpenAI 举办了一场名为 "Parameter Golf" 的 AI 辅助机器学习研究竞赛，吸引了 1000 多名参与者和 2000 多份提交。比赛的核心约束是极严格的参数预算，迫使参赛者利用 AI 编码 agent、量化技术和新颖模型架构在有限资源下最大化性能。这本质上是一场关于 AI 辅助研究能力的压力测试，考察 coding agent 能否在约束条件下自主发现高效的模型设计。比赛覆盖了量化、模型剪枝、agent 协作等方向，但 OpenAI 未公布具体的技术方案细节或获胜架构。

5月10日周日

4 条

推理引擎·6 天前

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

推理引擎·6 天前

8GB显存跑190K上下文：Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上，通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B（MoE 架构，35B 参数，每 token 激活 3B）的 Q5 量化版，实现约 37–51 tok/s 的推理速度，上下文窗口达到约 190K。关键技术配置包括：--n-gpu-layers 430 将大部分层卸载到 GPU，--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存，--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化，以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。

大模型·6 天前

Claude Mythos 把 METR 基准测试曲线跑爆了

METR（Model Evaluation & Threat Research）发布的时间跨度基准测试中，Anthropic 的 Claude Mythos 模型表现远超此前所有模型，直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间，被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线，反映出模型在长周期自主任务中的能力跃升。

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus，Hugging Face 联合创始人实测

Hugging Face 联合创始人发帖称，在 iPhone 上通过 AI Desktop 98 应用本地运行 Qwen 3.6 27B 模型（开启飞行模式），其编码能力接近 Claude Opus 在 Claude Code 中的表现。该应用支持在 iOS 设备上离线运行大模型，无需联网即可完成复杂编程任务。目前尚不清楚具体评测基准和量化精度，但这一对比暗示小参数本地模型在特定场景下已逼近云端顶级模型。

5月5日周二

2 条

大模型·12 天前

GPT-5.5 Instant 上线：幻觉降低、个性化增强

OpenAI 发布 GPT-5.5 Instant，作为 ChatGPT 的默认模型更新。核心改进包括：回答准确度提升、幻觉率降低、以及更强的个性化控制能力。用户可更精细地调节模型输出风格与偏好。该版本未提及架构变化或推理效率优化，属于模型能力层面的渐进式升级。

大模型·12 天前

OpenAI 发布 GPT-5.5 Instant 系统卡，推理延迟大幅降低

OpenAI 于 2026-05-05 发布 GPT-5.5 Instant 系统卡（System Card），这是 GPT-5.5 系列的低延迟变体。系统卡详细说明了模型架构优化、安全评估结果以及部署配置。核心改进集中在推理路径的延迟优化，通过架构级剪枝和注意力机制调整实现更快的 token 生成速度。系统卡还披露了红队测试结果、偏见评估以及使用限制。未提及具体延迟数字或基准测试对比。

昨天 · 5月16日 周六

5月15日 周五

5月14日 周四

5月12日 周二