InfoPie · AI · 大模型 · 数据库

5月11日周一

1 条

推理引擎·6 天前

ExLlamaV3 连发更新：DFlash 投机解码最高 3 倍加速

ExLlamaV3 在过去一个月密集发布多个版本（v0.0.29–v0.0.33），先后加入 Gemma 4 支持、缓存效率优化、DFlash 投机解码、模型级量化优化及多项 bugfix。DFlash 在代码生成场景下达到 177.67 t/s，相比基线 59.21 t/s 提升 3 倍；在 agentic/curl 场景下也达到 125.94 t/s（2.33x）。最新版本 v0.0.32 针对 Qwen3.5、Trinity-Nano、Gemma4 等模型在 3090/4090/5090/6000 Pro 上做了逐模型优化，Trinity-Nano 在 6000 Pro 上提升高达 72.4%。v0.0.33 进一步加入 DFlash 模型量化支持。所有更新均为向后兼容的增量改进，无 breaking change。

5月11日 周一

ExLlamaV3 连发更新：DFlash 投机解码最高 3 倍加速

5月11日周一