论文速递·更新于 2026/05/16 09:30

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

大模型在处理超长上下文时，KV cache 随序列长度线性增长，导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制，将历史上下文压缩为可更新的记忆状态，仅在需要时从记忆中检索相关信息，从而避免全量 KV cache 的存储与计算。实验表明，在 128K 上下文长度下，δ-mem 将推理延迟降低约 3 倍，显存占用减少 60% 以上，同时保持与全注意力基线相当的任务准确率。

速读

δ-mem 用在线记忆替代全量 KV cache，长上下文推理延迟降低 3 倍

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

相关源 (1)