推理引擎·更新于 2026/05/09 16:05
BeeLlama.cpp 发布:DFlash 投机解码 + TurboQuant 让 3090 跑 Qwen 3.6 27B Q5 200K 上下文
开发者 Anbeeld 发布 BeeLlama.cpp,一个基于 llama.cpp 的高性能推理分支,专为在单张 RTX 3090/4090 上运行 Qwen 3.6 27B Q5 量化模型并支持 200K 上下文与视觉多模态而设计。核心技术包括 DFlash 投机解码(目标模型维护每层 4096 槽环形缓冲,草稿模型通过交叉注意力生成候选 token 供验证)和 TurboQuant/TCQ KV 缓存压缩(提供 turbo2 到 turbo3_tcq 五种模式,压缩比 4x–7.5x),以及自适应草稿控制与推理循环保护。作者称相比基线实现 2–3 倍加速,峰值达 135 tps。
速读
BeeLlama.cpp 用 DFlash 投机解码与 TurboQuant 4x–7.5x KV 压缩,单 3090 跑 Qwen 3.6 27B Q5 达 200K 上下文和 135 tps
相关源 (1)
- r/LocalLLaMA · 2026/5/9 16:05:05https://www.reddit.com/r/LocalLLaMA/comments/1t88zvv/beellamacpp_advanced_dflash_turboquant_with/