推理引擎·3 天前llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持llama.cpp 发布 b9142 版本,核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE(混合专家)支持。该 PR 由 Qualcomm 工程师贡献,同时修复了潜在的内存泄漏问题,并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更,属于推理引擎后端的量化能力扩展。›1 条相关源