InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

3 条

大模型·14 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

Reddit 用户用同一段 prompt（单 HTML 文件 + Canvas 实现汽车驾驶动画，含视差滚动、车轮旋转、光影效果）对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本（Q4_K_M/Q8），在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行，Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s，而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量，而非标准 benchmark 分数。

推理引擎·17 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

llama.cpp 发布 b9180 版本，核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码（speculative decoding）。该版本新增了 draft-mtp 模型标识，允许目标模型在推测解码中回滚至多 draft_max 步，通过存储 GDN（Gated Delta Net）中间状态实现部分序列回滚（partial seq_rm）。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug，并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。

推理引擎·17 小时前

Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。

5月15日周五

1 条

推理引擎·2 天前

本地实测 Qwen 3.6 MTP：35B MoE 模型 300K 上下文仅用 28GB VRAM

Reddit 用户使用 unsloth 发布的 Qwen3.6-35B-A3B-UD-Q5_K_S（MTP 版）在本地进行多轮长上下文测试，构建 Pygame 迷宫游戏。在 32GB RDNA 4 显卡上，35B MoE 模型在 Q4_0 量化下达到 300K 上下文，VRAM 占用 28.3GB，仍有空间扩展到 400K。用户实测 MTP 版本在 27B 稠密模型上带来约 1.5 倍 tokens/s 加速，但 35B MoE 版本仅提升不到 10%。测试中 MoE 模型在 200K 附近出现稳定性问题，切换至 Q8_0 量化的 27B 模型后解决。MTP 推理需使用 llama.cpp 的 MTP 原型 Docker 镜像（haven oammo/llama:vulkan-server），后端为 Vulkan。

5月14日周四

3 条

推理引擎·3 天前

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp 发布 b9142 版本，核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE（混合专家）支持。该 PR 由 Qualcomm 工程师贡献，同时修复了潜在的内存泄漏问题，并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更，属于推理引擎后端的量化能力扩展。

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

llama.cpp 发布 b9141 版本，核心变化是 server 和 webui 端新增 continue_final_message 标志，用于兼容 vLLM 和 transformers API。该标志与 add_generation_prompt false 配合时，会触发已有的 prefill_assistant 代码路径，实现对话续写功能；与 add_generation_prompt true 互斥，违反时返回 HTTP 400。WebUI 的 Continue 按钮已接入此标志。本次发布不涉及底层推理逻辑改动，纯 API 对齐，为后续 per-template prefill 改造铺路。

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

llama.cpp 发布 b9140 版本，核心修复是 OpenCL 后端在 Adreno GPU（高通移动 GPU）上预热 MoE（混合专家）模型时的崩溃问题（issue #22876）。该版本同步更新了各平台二进制包，包括 macOS（Apple Silicon / Intel）、Linux（x64/arm64/s390x，支持 Vulkan/ROCm/OpenVINO/SYCL）、Android arm64 及 Windows x64。无 Breaking Change。

5月13日周三

1 条

工具发布·3 天前

TextGen 从 Web UI 变身原生桌面应用，对标 LM Studio

TextGen（原名 text-generation-webui，作者 oobabooga）发布原生桌面应用版本，提供 Windows/Linux/macOS 免安装便携构建。项目自 2022 年 12 月启动，早于 LLaMA 和 llama.cpp。新版本通过 Electron 封装实现零安装体验，解压即用，所有数据保存在 user_data 目录内。支持 CUDA、Vulkan、ROCm、CPU-only 及 Apple Silicon/Intel 构建。核心差异化：零遥测（无出站请求）、内置 ik_llama.cpp 提供 IQ4_KS/IQ5_KS 等新量化类型、集成 ddgs 库实现 Web 搜索工具调用、支持 .py 脚本/HTTP MCP/stdio MCP 三种工具调用方式。

5月12日周二

1 条

推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现，将 llama.cpp 的物理微批大小（-ub）从默认 512 提升至 8192，同时将 --n-cpu-moe 从 26 调至 28（将更多 MoE 层卸载到 CPU 以腾出显存），可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s，提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s，下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。

5月11日周一

1 条

推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

一位 Reddit 用户用 Intel 已停产的 Optane 持久内存（PMem）搭建了一台本地推理机器，成功运行 Kimi K2.5（万亿参数 MoE 模型），生成速度约 4 tokens/s。系统配置 768GB PMem（内存模式，DRAM 作缓存），GPU 仅 12GB，通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上，稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化，并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。

5月10日周日

3 条

推理引擎·6 天前

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

推理引擎·6 天前

8GB显存跑190K上下文：Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上，通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B（MoE 架构，35B 参数，每 token 激活 3B）的 Q5 量化版，实现约 37–51 tok/s 的推理速度，上下文窗口达到约 190K。关键技术配置包括：--n-gpu-layers 430 将大部分层卸载到 GPU，--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存，--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化，以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus，Hugging Face 联合创始人实测

Hugging Face 联合创始人发帖称，在 iPhone 上通过 AI Desktop 98 应用本地运行 Qwen 3.6 27B 模型（开启飞行模式），其编码能力接近 Claude Opus 在 Claude Code 中的表现。该应用支持在 iOS 设备上离线运行大模型，无需联网即可完成复杂编程任务。目前尚不清楚具体评测基准和量化精度，但这一对比暗示小参数本地模型在特定场景下已逼近云端顶级模型。

5月9日周六

1 条

推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上，通过 llama.cpp 的 MTP（Multi-Token Prediction）分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型，实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率，上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载，为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线，需从源码编译并应用 draft PR。

昨天 · 5月16日 周六

5月15日 周五

5月14日 周四

5月13日 周三

5月12日 周二

5月11日 周一

5月10日 周日

5月9日 周六

昨天 · 5月16日周六

5月15日周五

5月14日周四

5月13日周三

5月12日周二

5月11日周一

5月10日周日

5月9日周六