InfoPie · AI · 大模型 · 数据库

5月14日周四

1 条

推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测：FP8 仍是 KV Cache 量化最佳默认方案

vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论：FP8（--kv-cache-dtype fp8）依然是生产环境的最佳默认选择，提供 2 倍 KV Cache 容量且精度损失可忽略，在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势，仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值，但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显，同时严重劣化延迟和吞吐，不适合生产部署。

5月12日周二

1 条

大模型·5 天前

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

OpenAI 举办了一场名为 "Parameter Golf" 的 AI 辅助机器学习研究竞赛，吸引了 1000 多名参与者和 2000 多份提交。比赛的核心约束是极严格的参数预算，迫使参赛者利用 AI 编码 agent、量化技术和新颖模型架构在有限资源下最大化性能。这本质上是一场关于 AI 辅助研究能力的压力测试，考察 coding agent 能否在约束条件下自主发现高效的模型设计。比赛覆盖了量化、模型剪枝、agent 协作等方向，但 OpenAI 未公布具体的技术方案细节或获胜架构。

5月14日 周四

vLLM 发布 TurboQuant 全面评测：FP8 仍是 KV Cache 量化最佳默认方案

5月12日 周二

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

5月14日周四

5月12日周二