每日早报
- 01
本地 Qwen 3.6 量化版单文件编码任务直追前沿模型
Reddit 用户用同一段 prompt(单 HTML 文件 + Canvas 实现汽车驾驶动画,含视差滚动、车轮旋转、光影效果)对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本(Q4_K_M/Q8),在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行,Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s,而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量,而非标准 benchmark 分数。
速读 · Qwen 3.6 量化版在单文件编码任务中与前沿模型对比
大模型1 个来源 - 02
llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚
llama.cpp 发布 b9180 版本,核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码(speculative decoding)。该版本新增了 draft-mtp 模型标识,允许目标模型在推测解码中回滚至多 draft_max 步,通过存储 GDN(Gated Delta Net)中间状态实现部分序列回滚(partial seq_rm)。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug,并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。
速读 · llama.cpp b9180 新增 MTP 推测解码与 GDN 部分回滚支持
推理引擎1 个来源 - 03
Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍
Reddit 用户在高性能 APU Strix Halo(AMD Ryzen AI MAX+ 395)上对 llama.cpp 的 MTP(Multi-Token Prediction)功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型,对比开启与关闭 MTP 时的端到端性能。结果显示,27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒(-22.46%),生成吞吐从 7.61 t/s 提升至 17.98 t/s(+136%),但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢,生成速度虽有提升但 Prompt 处理降幅更大,多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著,但对大模型或短上下文场景收益有限。
速读 · llama.cpp MTP 在 Strix Halo 上让 27B 模型生成速度提升 136%
推理引擎1 个来源 - 04
δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍
大模型在处理超长上下文时,KV cache 随序列长度线性增长,导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制,将历史上下文压缩为可更新的记忆状态,仅在需要时从记忆中检索相关信息,从而避免全量 KV cache 的存储与计算。实验表明,在 128K 上下文长度下,δ-mem 将推理延迟降低约 3 倍,显存占用减少 60% 以上,同时保持与全注意力基线相当的任务准确率。
速读 · δ-mem 用在线记忆替代全量 KV cache,长上下文推理延迟降低 3 倍
论文速递1 个来源