推理引擎·更新于 2026/05/14 01:07
llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃
llama.cpp 发布 b9140 版本,核心修复是 OpenCL 后端在 Adreno GPU(高通移动 GPU)上预热 MoE(混合专家)模型时的崩溃问题(issue #22876)。该版本同步更新了各平台二进制包,包括 macOS(Apple Silicon / Intel)、Linux(x64/arm64/s390x,支持 Vulkan/ROCm/OpenVINO/SYCL)、Android arm64 及 Windows x64。无 Breaking Change。
速读
llama.cpp b9140 修复 Adreno GPU 的 MoE 预热崩溃并新增 KleidiAI 加速的 macOS 包
相关源 (1)
- llama.cpp Releases · 2026/5/14 01:07:43https://github.com/ggml-org/llama.cpp/releases/tag/b9140