← 返回信息流
推理引擎·更新于 2026/05/15 19:07

Orthrus 冻结主干网实现 7.8× 加速,输出分布与 Qwen3 完全一致

Orthrus 提出一种扩散注意力模块,注入冻结的 Qwen3-8B 自回归 Transformer 每层,实现最高 7.8× tokens/forward 加速。核心思路:扩散头并行投影 K=32 个 token,AR 头二次验证并接受最长匹配前缀,两路共享同一 KV cache。仅训练 16% 参数、<1B token、8×H200 上 24 小时。与 EAGLE-3、DFlash 等推测解码方案相比,无需外部草稿模型、无需独立 KV cache、零 TTFT 惩罚;KV 开销仅约 4.5 MiB。MATH-500 上接受长度 11.7 vs DFlash 7.9 vs EAGLE-3 3.5。单步去噪优于多步,KL 蒸馏优于 CE。局限:受限于冻结基座模型能力,仅 Qwen3 评估,仅支持贪心+拒绝采样。

速读

Orthrus 冻结主干网实现 7.8 倍加速,输出分布与 Qwen3 一致,KV 开销仅 4.5 MiB

相关源 (1)