推理引擎·更新于 2026/05/15 19:07

Orthrus 冻结主干网实现 7.8× 加速，输出分布与 Qwen3 完全一致

Orthrus 提出一种扩散注意力模块，注入冻结的 Qwen3-8B 自回归 Transformer 每层，实现最高 7.8× tokens/forward 加速。核心思路：扩散头并行投影 K=32 个 token，AR 头二次验证并接受最长匹配前缀，两路共享同一 KV cache。仅训练 16% 参数、<1B token、8×H200 上 24 小时。与 EAGLE-3、DFlash 等推测解码方案相比，无需外部草稿模型、无需独立 KV cache、零 TTFT 惩罚；KV 开销仅约 4.5 MiB。MATH-500 上接受长度 11.7 vs DFlash 7.9 vs EAGLE-3 3.5。单步去噪优于多步，KL 蒸馏优于 CE。局限：受限于冻结基座模型能力，仅 Qwen3 评估，仅支持贪心+拒绝采样。

速读

Orthrus 冻结主干网实现 7.8 倍加速，输出分布与 Qwen3 一致，KV 开销仅 4.5 MiB

Orthrus 冻结主干网实现 7.8× 加速，输出分布与 Qwen3 完全一致

相关源 (1)