更新于 2026/07/01 18:10

llama.cpp b9859 发布：OpenCL 支持预编译二进制内核加载

llama.cpp 发布 b9859 版本，核心变化是 OpenCL 后端支持加载预编译二进制内核（binary kernel library），减少运行时编译开销。该 PR 通过引入 libdl.h 解决循环依赖，为 gemm_moe_mxfp4_f32_ns、q8_0、q4_0、q4_1、q4_k 等多种 GEMM 算子提供二进制内核加载能力，显著提升 OpenCL 后端的启动速度和兼容性。

此次更新对使用 AMD/Intel GPU 或移动端 OpenCL 推理的用户有实际收益，是 llama.cpp 在硬件适配方向上的持续改进，无破坏性变更。

速读

llama.cpp b9859 为 OpenCL 后端加入预编译二进制内核加载能力

llama.cpp b9859 发布：OpenCL 支持预编译二进制内核加载

相关源 (1)