← 返回信息流
推理引擎·更新于 2026/05/14 01:34

llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp 发布 b9142 版本,核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE(混合专家)支持。该 PR 由 Qualcomm 工程师贡献,同时修复了潜在的内存泄漏问题,并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更,属于推理引擎后端的量化能力扩展。

速读

llama.cpp b9142 为 Adreno GPU 新增 Q5_0/Q5_1 MoE 支持并修复内存泄漏

相关源 (1)