更新于 2026/07/01 18:10
llama.cpp b9859 发布:OpenCL 支持预编译二进制内核加载
llama.cpp 发布 b9859 版本,核心变化是 OpenCL 后端支持加载预编译二进制内核(binary kernel library),减少运行时编译开销。该 PR 通过引入 libdl.h 解决循环依赖,为 gemm_moe_mxfp4_f32_ns、q8_0、q4_0、q4_1、q4_k 等多种 GEMM 算子提供二进制内核加载能力,显著提升 OpenCL 后端的启动速度和兼容性。
此次更新对使用 AMD/Intel GPU 或移动端 OpenCL 推理的用户有实际收益,是 llama.cpp 在硬件适配方向上的持续改进,无破坏性变更。
速读
llama.cpp b9859 为 OpenCL 后端加入预编译二进制内核加载能力
相关源 (1)
- llama.cpp Releases · 2026/7/1 18:10:10https://github.com/ggml-org/llama.cpp/releases/tag/b9859