← 返回信息流
论文速递·更新于 2026/05/16 09:30

δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍

大模型在处理超长上下文时,KV cache 随序列长度线性增长,导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制,将历史上下文压缩为可更新的记忆状态,仅在需要时从记忆中检索相关信息,从而避免全量 KV cache 的存储与计算。实验表明,在 128K 上下文长度下,δ-mem 将推理延迟降低约 3 倍,显存占用减少 60% 以上,同时保持与全注意力基线相当的任务准确率。

速读

δ-mem 用在线记忆替代全量 KV cache,长上下文推理延迟降低 3 倍

相关源 (1)