推理引擎·2 天前vLLM 发布 TurboQuant 全面评测:FP8 仍是 KV Cache 量化最佳默认方案vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论:FP8(--kv-cache-dtype fp8)依然是生产环境的最佳默认选择,提供 2 倍 KV Cache 容量且精度损失可忽略,在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势,仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值,但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显,同时严重劣化延迟和吞吐,不适合生产部署。›1 条相关源
推理引擎·7 天前NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理NVIDIA 发布 Star Elastic,一种后训练方法应用于 Nemotron Nano v3,将 30B 参数的主检查点嵌套为 23B 和 12B 子模型,三者共存于同一检查点(支持 BF16/FP8/NVFP4)。核心技术是 Gumbel-Softmax 可学习路由器,将任意目标参数预算映射到最优嵌套配置,覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上,可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答,实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享,支持推理速度的滑动调节。›1 条相关源
大模型·12 天前Google 四月 AI 更新:Gemma 3.1 与 Gemini 2.5 多项升级Google 在 2026 年 4 月发布多项 AI 产品更新。Gemma 3.1 开源模型新增 4B 和 12B 两种尺寸,支持 128K 上下文窗口,采用后训练优化提升指令遵循能力。Gemini 2.5 Flash 模型在推理成本降低的同时提升了代码生成与多模态理解能力。此外,Google 推出 AI 安全框架 Secure AI Framework (SAIF) 的更新版本,并开源了部分安全评估工具。›1 条相关源
推理引擎·23 天前Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃Hugging Face Transformers 发布 v5.6.2 补丁版本。此前 v5.6.x 中 Qwen 3.5 和 3.6 的 MoE(仅文本)模型在使用 FP8 精度推理时出现崩溃,本次补丁修复了配置读取与 kernel 错误处理逻辑(PR #45610),使 FP8 下的 MoE 推理恢复正常。无破坏性变更,仅修复 bug。›1 条相关源
推理引擎·24 天前Google 发布两款专用 TPU 第八代芯片,面向 Agent 时代Google 在 Cloud Next 大会上宣布推出第八代 TPU 的两款专用芯片,分别针对推理和训练场景优化,定位为"Agent 时代"的基础设施。这是 Google 首次在同一代 TPU 中推出两款不同规格的芯片,表明其正在从通用加速器向场景专用芯片演进。目前官方尚未公布具体算力、显存容量、互联带宽等关键参数,也未说明是否兼容现有 TPU v5 的 Pod 拓扑。›1 条相关源