每日早报

2026 年 5 月 17 日 · 周日·4 条精选

01
本地 Qwen 3.6 量化版单文件编码任务直追前沿模型
Reddit 用户用同一段 prompt（单 HTML 文件 + Canvas 实现汽车驾驶动画，含视差滚动、车轮旋转、光影效果）对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本（Q4_K_M/Q8），在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行，Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s，而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量，而非标准 benchmark 分数。
速读 · Qwen 3.6 量化版在单文件编码任务中与前沿模型对比
大模型1 个来源
02
llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚
llama.cpp 发布 b9180 版本，核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码（speculative decoding）。该版本新增了 draft-mtp 模型标识，允许目标模型在推测解码中回滚至多 draft_max 步，通过存储 GDN（Gated Delta Net）中间状态实现部分序列回滚（partial seq_rm）。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug，并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。
速读 · llama.cpp b9180 新增 MTP 推测解码与 GDN 部分回滚支持
推理引擎1 个来源
03
Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍
Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。
速读 · llama.cpp MTP 在 Strix Halo 上让 27B 模型生成速度提升 136%
推理引擎1 个来源
04
δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍
大模型在处理超长上下文时，KV cache 随序列长度线性增长，导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制，将历史上下文压缩为可更新的记忆状态，仅在需要时从记忆中检索相关信息，从而避免全量 KV cache 的存储与计算。实验表明，在 128K 上下文长度下，δ-mem 将推理延迟降低约 3 倍，显存占用减少 60% 以上，同时保持与全注意力基线相当的任务准确率。
速读 · δ-mem 用在线记忆替代全量 KV cache，长上下文推理延迟降低 3 倍
论文速递1 个来源