推理引擎·更新于 2026/05/14 01:34
llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持
llama.cpp 发布 b9142 版本,核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE(混合专家)支持。该 PR 由 Qualcomm 工程师贡献,同时修复了潜在的内存泄漏问题,并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更,属于推理引擎后端的量化能力扩展。
速读
llama.cpp b9142 为 Adreno GPU 新增 Q5_0/Q5_1 MoE 支持并修复内存泄漏
相关源 (1)
- llama.cpp Releases · 2026/5/14 01:34:43https://github.com/ggml-org/llama.cpp/releases/tag/b9142