推理引擎·更新于 2026/05/14 01:34

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp 发布 b9142 版本，核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE（混合专家）支持。该 PR 由 Qualcomm 工程师贡献，同时修复了潜在的内存泄漏问题，并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更，属于推理引擎后端的量化能力扩展。

速读

llama.cpp b9142 为 Adreno GPU 新增 Q5_0/Q5_1 MoE 支持并修复内存泄漏

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

相关源 (1)