大模型 · 14 小时前
Reddit 用户用同一段 prompt(单 HTML 文件 + Canvas 实现汽车驾驶动画,含视差滚动、车轮旋转、光影效果)对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本(Q4_K_M/Q8),在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行,Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s,而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量,而非标准 benchmark 分数。
› 1 条相关源
推理引擎 · 17 小时前
llama.cpp 发布 b9180 版本,核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码(speculative decoding)。该版本新增了 draft-mtp 模型标识,允许目标模型在推测解码中回滚至多 draft_max 步,通过存储 GDN(Gated Delta Net)中间状态实现部分序列回滚(partial seq_rm)。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug,并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。
› 1 条相关源
推理引擎 · 17 小时前
Reddit 用户在高性能 APU Strix Halo(AMD Ryzen AI MAX+ 395)上对 llama.cpp 的 MTP(Multi-Token Prediction)功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型,对比开启与关闭 MTP 时的端到端性能。结果显示,27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒(-22.46%),生成吞吐从 7.61 t/s 提升至 17.98 t/s(+136%),但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢,生成速度虽有提升但 Prompt 处理降幅更大,多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著,但对大模型或短上下文场景收益有限。
› 1 条相关源