论文速递·1 天前δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍大模型在处理超长上下文时,KV cache 随序列长度线性增长,导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制,将历史上下文压缩为可更新的记忆状态,仅在需要时从记忆中检索相关信息,从而避免全量 KV cache 的存储与计算。实验表明,在 128K 上下文长度下,δ-mem 将推理延迟降低约 3 倍,显存占用减少 60% 以上,同时保持与全注意力基线相当的任务准确率。›1 条相关源
大模型·11 天前GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口OpenAI 发布 GPT-5.5 Instant,主打低延迟推理,面向实时对话场景。SubQ 推出 12M token 上下文窗口,大幅扩展长文本处理能力。Google 同步升级 Gemini Flash 系列,提升推理效率与多模态能力。三者均聚焦推理阶段优化,降低响应延迟。›1 条相关源