大模型·14 小时前
Reddit 用户用同一段 prompt(单 HTML 文件 + Canvas 实现汽车驾驶动画,含视差滚动、车轮旋转、光影效果)对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本(Q4_K_M/Q8),在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行,Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s,而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量,而非标准 benchmark 分数。
推理引擎·17 小时前
Reddit 用户在高性能 APU Strix Halo(AMD Ryzen AI MAX+ 395)上对 llama.cpp 的 MTP(Multi-Token Prediction)功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型,对比开启与关闭 MTP 时的端到端性能。结果显示,27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒(-22.46%),生成吞吐从 7.61 t/s 提升至 17.98 t/s(+136%),但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢,生成速度虽有提升但 Prompt 处理降幅更大,多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著,但对大模型或短上下文场景收益有限。
大模型·1 天前
Qwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%(±3.2)的成绩,超越 Gemini 2.5 Pro(19.6%)和 Qwen3-Coder-480B(23.9%),证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%,表明 10B 以下本地模型也能在硬基准上被量化评估。