InfoPie · AI · 大模型 · 数据库

5月14日周四

1 条

推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测：FP8 仍是 KV Cache 量化最佳默认方案

vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论：FP8（--kv-cache-dtype fp8）依然是生产环境的最佳默认选择，提供 2 倍 KV Cache 容量且精度损失可忽略，在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势，仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值，但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显，同时严重劣化延迟和吞吐，不适合生产部署。

5月10日周日

1 条

推理引擎·7 天前

NVIDIA 发布 Star Elastic：一个检查点内含 30B/23B/12B 三模型，零样本切片推理

NVIDIA 发布 Star Elastic，一种后训练方法应用于 Nemotron Nano v3，将 30B 参数的主检查点嵌套为 23B 和 12B 子模型，三者共存于同一检查点（支持 BF16/FP8/NVFP4）。核心技术是 Gumbel-Softmax 可学习路由器，将任意目标参数预算映射到最优嵌套配置，覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上，可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答，实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享，支持推理速度的滑动调节。

5月4日周一

1 条

大模型·12 天前

Google 四月 AI 更新：Gemma 3.1 与 Gemini 2.5 多项升级

Google 在 2026 年 4 月发布多项 AI 产品更新。Gemma 3.1 开源模型新增 4B 和 12B 两种尺寸，支持 128K 上下文窗口，采用后训练优化提升指令遵循能力。Gemini 2.5 Flash 模型在推理成本降低的同时提升了代码生成与多模态理解能力。此外，Google 推出 AI 安全框架 Secure AI Framework (SAIF) 的更新版本，并开源了部分安全评估工具。

4月23日周四

1 条

推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

Hugging Face Transformers 发布 v5.6.2 补丁版本。此前 v5.6.x 中 Qwen 3.5 和 3.6 的 MoE（仅文本）模型在使用 FP8 精度推理时出现崩溃，本次补丁修复了配置读取与 kernel 错误处理逻辑（PR #45610），使 FP8 下的 MoE 推理恢复正常。无破坏性变更，仅修复 bug。

4月22日周三

1 条

推理引擎·24 天前

Google 发布两款专用 TPU 第八代芯片，面向 Agent 时代

Google 在 Cloud Next 大会上宣布推出第八代 TPU 的两款专用芯片，分别针对推理和训练场景优化，定位为"Agent 时代"的基础设施。这是 Google 首次在同一代 TPU 中推出两款不同规格的芯片，表明其正在从通用加速器向场景专用芯片演进。目前官方尚未公布具体算力、显存容量、互联带宽等关键参数，也未说明是否兼容现有 TPU v5 的 Pod 拓扑。

5月14日 周四