论文速递·更新于 2026/05/16 09:30
δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍
大模型在处理超长上下文时,KV cache 随序列长度线性增长,导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制,将历史上下文压缩为可更新的记忆状态,仅在需要时从记忆中检索相关信息,从而避免全量 KV cache 的存储与计算。实验表明,在 128K 上下文长度下,δ-mem 将推理延迟降低约 3 倍,显存占用减少 60% 以上,同时保持与全注意力基线相当的任务准确率。
速读
δ-mem 用在线记忆替代全量 KV cache,长上下文推理延迟降低 3 倍
相关源 (1)
- HN frontpage · 2026/5/16 09:30:06https://arxiv.org/abs/2605.12357