InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

1 条

论文速递·1 天前

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

大模型在处理超长上下文时，KV cache 随序列长度线性增长，导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制，将历史上下文压缩为可更新的记忆状态，仅在需要时从记忆中检索相关信息，从而避免全量 KV cache 的存储与计算。实验表明，在 128K 上下文长度下，δ-mem 将推理延迟降低约 3 倍，显存占用减少 60% 以上，同时保持与全注意力基线相当的任务准确率。

5月6日周三

1 条

大模型·11 天前

GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口

OpenAI 发布 GPT-5.5 Instant，主打低延迟推理，面向实时对话场景。SubQ 推出 12M token 上下文窗口，大幅扩展长文本处理能力。Google 同步升级 Gemini Flash 系列，提升推理效率与多模态能力。三者均聚焦推理阶段优化，降低响应延迟。

昨天 · 5月16日 周六

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

5月6日 周三

GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口

昨天 · 5月16日周六

5月6日周三