推理引擎·3 天前
llama.cpp 发布 b9140 版本,核心修复是 OpenCL 后端在 Adreno GPU(高通移动 GPU)上预热 MoE(混合专家)模型时的崩溃问题(issue #22876)。该版本同步更新了各平台二进制包,包括 macOS(Apple Silicon / Intel)、Linux(x64/arm64/s390x,支持 Vulkan/ROCm/OpenVINO/SYCL)、Android arm64 及 Windows x64。无 Breaking Change。