5月14日 周四

1
推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测:FP8 仍是 KV Cache 量化最佳默认方案

5月10日 周日

1
推理引擎·7 天前

NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理

5月4日 周一

1
大模型·12 天前

Google 四月 AI 更新:Gemma 3.1 与 Gemini 2.5 多项升级

4月23日 周四

1
推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

4月22日 周三

1
推理引擎·24 天前

Google 发布两款专用 TPU 第八代芯片,面向 Agent 时代