工具发布·更新于 2026/05/05 16:52

Transformers v5.8.0 发布：原生支持 DeepSeek-V4 与 Gemma 4 投机解码

Transformers DeepSeek-V4 MoE 投机解码 KV Cache

HuggingFace Transformers 发布 v5.8.0，主要新增 DeepSeek-V4 和 Gemma 4 Assistant 两个模型架构。DeepSeek-V4 是 DeepSeek 的新一代 MoE 模型，架构上弃用 MLA 改用混合局部+长程注意力，将残差连接替换为流形约束超连接（mHC），并在前几层 MoE 使用静态 token-id→expert-id 哈希表做引导。Gemma 4 Assistant 是一个纯文本小模型，专为 Gemma 4 做投机解码（MTP 方法），全模型共享 KV cache，跳过预填充阶段，并引入交叉注意力以利用目标模型的上下文。该版本无已知破坏性变更。

速读

Transformers v5.8.0 原生支持 DeepSeek-V4 弃用 MLA 并引入混合注意力与流形超连接，以及 Gemma 4 全 KV 共享投机解码

Transformers v5.8.0 发布：原生支持 DeepSeek-V4 与 Gemma 4 投机解码

相关源 (1)