推理引擎·6 天前
ExLlamaV3 连发更新:DFlash 投机解码最高 3 倍加速
ExLlamaV3 在过去一个月密集发布多个版本(v0.0.29–v0.0.33),先后加入 Gemma 4 支持、缓存效率优化、DFlash 投机解码、模型级量化优化及多项 bugfix。DFlash 在代码生成场景下达到 177.67 t/s,相比基线 59.21 t/s 提升 3 倍;在 agentic/curl 场景下也达到 125.94 t/s(2.33x)。最新版本 v0.0.32 针对 Qwen3.5、Trinity-Nano、Gemma4 等模型在 3090/4090/5090/6000 Pro 上做了逐模型优化,Trinity-Nano 在 6000 Pro 上提升高达 72.4%。v0.0.33 进一步加入 DFlash 模型量化支持。所有更新均为向后兼容的增量改进,无 breaking change。