推理引擎·更新于 2026/05/09 16:05

BeeLlama.cpp 发布：DFlash 投机解码 + TurboQuant 让 3090 跑 Qwen 3.6 27B Q5 200K 上下文

开发者 Anbeeld 发布 BeeLlama.cpp，一个基于 llama.cpp 的高性能推理分支，专为在单张 RTX 3090/4090 上运行 Qwen 3.6 27B Q5 量化模型并支持 200K 上下文与视觉多模态而设计。核心技术包括 DFlash 投机解码（目标模型维护每层 4096 槽环形缓冲，草稿模型通过交叉注意力生成候选 token 供验证）和 TurboQuant/TCQ KV 缓存压缩（提供 turbo2 到 turbo3_tcq 五种模式，压缩比 4x–7.5x），以及自适应草稿控制与推理循环保护。作者称相比基线实现 2–3 倍加速，峰值达 135 tps。

速读

BeeLlama.cpp 用 DFlash 投机解码与 TurboQuant 4x–7.5x KV 压缩，单 3090 跑 Qwen 3.6 27B Q5 达 200K 上下文和 135 tps

BeeLlama.cpp 发布：DFlash 投机解码 + TurboQuant 让 3090 跑 Qwen 3.6 27B Q5 200K 上下文

相关源 (1)