InfoPie · AI · 大模型 · 数据库

5月14日周四

2 条

推理引擎·3 天前

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp 发布 b9142 版本，核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE（混合专家）支持。该 PR 由 Qualcomm 工程师贡献，同时修复了潜在的内存泄漏问题，并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更，属于推理引擎后端的量化能力扩展。

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

llama.cpp 发布 b9140 版本，核心修复是 OpenCL 后端在 Adreno GPU（高通移动 GPU）上预热 MoE（混合专家）模型时的崩溃问题（issue #22876）。该版本同步更新了各平台二进制包，包括 macOS（Apple Silicon / Intel）、Linux（x64/arm64/s390x，支持 Vulkan/ROCm/OpenVINO/SYCL）、Android arm64 及 Windows x64。无 Breaking Change。

5月14日 周四

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

5月14日周四