InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

3 条

大模型·14 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

Reddit 用户用同一段 prompt（单 HTML 文件 + Canvas 实现汽车驾驶动画，含视差滚动、车轮旋转、光影效果）对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本（Q4_K_M/Q8），在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行，Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s，而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量，而非标准 benchmark 分数。

推理引擎·17 小时前

Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。

大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0，超越 Gemini 2.5 Pro

Qwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%（±3.2）的成绩，超越 Gemini 2.5 Pro（19.6%）和 Qwen3-Coder-480B（23.9%），证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%，表明 10B 以下本地模型也能在硬基准上被量化评估。

5月15日周五

1 条

推理引擎·2 天前

本地实测 Qwen 3.6 MTP：35B MoE 模型 300K 上下文仅用 28GB VRAM

Reddit 用户使用 unsloth 发布的 Qwen3.6-35B-A3B-UD-Q5_K_S（MTP 版）在本地进行多轮长上下文测试，构建 Pygame 迷宫游戏。在 32GB RDNA 4 显卡上，35B MoE 模型在 Q4_0 量化下达到 300K 上下文，VRAM 占用 28.3GB，仍有空间扩展到 400K。用户实测 MTP 版本在 27B 稠密模型上带来约 1.5 倍 tokens/s 加速，但 35B MoE 版本仅提升不到 10%。测试中 MoE 模型在 200K 附近出现稳定性问题，切换至 Q8_0 量化的 27B 模型后解决。MTP 推理需使用 llama.cpp 的 MTP 原型 Docker 镜像（haven oammo/llama:vulkan-server），后端为 Vulkan。

5月10日周日

1 条

推理引擎·6 天前

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

5月9日周六

1 条

推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上，通过 llama.cpp 的 MTP（Multi-Token Prediction）分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型，实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率，上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载，为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线，需从源码编译并应用 draft PR。

4月23日周四

2 条

推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

Hugging Face Transformers 发布 v5.6.2 补丁版本。此前 v5.6.x 中 Qwen 3.5 和 3.6 的 MoE（仅文本）模型在使用 FP8 精度推理时出现崩溃，本次补丁修复了配置读取与 kernel 错误处理逻辑（PR #45610），使 FP8 下的 MoE 推理恢复正常。无破坏性变更，仅修复 bug。

大模型·24 天前

OpenAI 推出 Workspace Agents，Google 发布 Workspace Intelligence

OpenAI 发布 Workspace Agents，可在 Google Workspace 和 Microsoft 365 中执行跨应用任务，如自动整理邮件、生成会议纪要、管理文档等。Google 同步推出 Workspace Intelligence，基于 Gemini 2.5 Pro 深度集成，支持跨 Gmail、Drive、Calendar 的智能搜索与自动化。同时 Qwen3.6-27B 发布，延续 MoE 架构，在推理与编程任务上表现提升。

昨天 · 5月16日 周六

5月15日 周五

5月10日 周日

5月9日 周六

4月23日 周四

昨天 · 5月16日周六

5月15日周五

5月10日周日

5月9日周六

4月23日周四