推理引擎·更新于 2026/05/14 01:07

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

llama.cpp 发布 b9140 版本，核心修复是 OpenCL 后端在 Adreno GPU（高通移动 GPU）上预热 MoE（混合专家）模型时的崩溃问题（issue #22876）。该版本同步更新了各平台二进制包，包括 macOS（Apple Silicon / Intel）、Linux（x64/arm64/s390x，支持 Vulkan/ROCm/OpenVINO/SYCL）、Android arm64 及 Windows x64。无 Breaking Change。

速读

llama.cpp b9140 修复 Adreno GPU 的 MoE 预热崩溃并新增 KleidiAI 加速的 macOS 包

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

相关源 (1)