δ-mem:给冻结大模型加一块 8×8 在线记忆
δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。
快速答案
δ-mem 给一个冻结的全注意力大模型挂上一块极小的在线记忆状态——只有 8×8——把至此为止的对话压缩进去,并在生成时以低秩修正的形式反馈回注意力。核心成绩:长记忆基准平均分较冻结原模型提升 1.10×、较最强的竞品记忆方法提升 1.15×,在 MemoryAgentBench 上提升 1.31×、LoCoMo 上提升 1.20×。而这一切既不做全量微调,也不替换骨干,更不扩张上下文窗口。
问题:加长上下文是用错了杠杆
「助手把一小时前说的话忘了」的默认解法是把上下文窗口做大。δ-mem 的前提是:这是用错了杠杆。更长的窗口很贵——注意力开销随序列长度增长;同样关键的是,窗口更大并不保证模型真的用到了里面埋着的相关事实。著名的「中段遗失」(lost in the middle)是利用率问题,不是容量问题。δ-mem 两头都绕开:窗口固定不动,转而另带一份持久状态,把历史蒸馏成注意力能廉价读取的形式。
δ-mem 怎么工作
两个设计撑起全文。
固定大小的联想记忆矩阵。 δ-mem 不让 KV 缓存或上下文膨胀,而是把历史存进一个固定维度的状态矩阵——实验用的是 8×8。这里的「联想」是线性注意力的字面含义:状态是一组学到的「键→值」关联,因此读取它只是一次矩阵乘法,而非对成千上万历史 token 的扫描。由于状态永不增长,无论对话跑多久,每步开销都保持平坦。
delta 规则更新。 新 token 到来时,状态用 delta 规则更新——正是 DeltaNet 等现代线性注意力变体背后的纠错式更新。它不会盲目堆叠每一条新关联(那会让小状态很快饱和),而是写入「记忆当前对某键的预测」与「新值」之间的差值,于是陈旧、冗余的内容被覆盖,而不是不断累加。这正是 8×8 状态能用起来的原因:它是被主动维护的,而非一个漏水的桶。
第三步是记忆如何被消费。δ-mem 不重训大模型。它的读出产生低秩修正,在生成时注入冻结骨干的注意力计算。骨干权重原封不动,记忆充当一个小而可学的旁路,把注意力推向历史认为重要的地方。
为何能胜过更重的记忆方案
多数大模型记忆系统要么 (a) 检索文本片段塞回提示词——这又重新花掉上下文预算,并继承了利用率问题;要么 (b) 在对话历史上微调模型——既慢又脆。δ-mem 诚实的卖点是:一个非常小的循环状态,用对的规则更新、再以低秩注意力修正读出,就能在关键指标上压过这些更重的方案。值得锚定的数字是较最强非 δ-mem 基线 1.15× 的平均优势:这是与其他记忆方法的正面对比,而非只跟无记忆模型比。
关键结果
- 在所评长记忆任务上,较冻结原模型平均 1.10×——这是给一个本无持久记忆的模型加上 δ-mem 带来的增益。
- 较最强竞品记忆方法平均 1.15×——这场正面对决说明这块小在线状态不只是「聊胜于无」。
- MemoryAgentBench 提升 1.31×,是论文单基准最大增益,跑在智能体记忆套件上。
- LoCoMo 提升 1.20×,一个长对话记忆基准。
- 以上全部基于一块 8×8 在线记忆状态与冻结骨干——无全量微调、不替换骨干、不扩上下文。
局限与存疑
成绩以相对倍率(1.10×、1.31×……)报告,因此每个比值背后的绝对分数、具体骨干与基线都很关键,在把 δ-mem 称作「SOTA」前应回原文核对。较冻结模型 1.10× 的提升真实但温和;MemoryAgentBench 上的 1.31× 是亮点,也合理引出一问:平均增益里有多少是被这一个基准抬起来的。8×8 的状态小得惊人,这是论文的魅力所在——却也带来天花板问题:当对话进到几百轮、或要记许多互不相干的事实时,记忆保真度如何随之缩放?这么小的状态从哪里开始丢掉 delta 规则留不住的东西?该方法依赖把修正注入全注意力,也把它绑定在那一类骨干上,迁移到其他架构在本文尚未验证。
常见问题
δ-mem 一句话是什么?
δ-mem 是一个轻量记忆模块,给冻结大模型配一块固定大小的 8×8 在线状态,用 delta 规则更新,其读出向注意力加入低秩修正,让模型无需更大上下文就能复用历史信息。
δ-mem 到底能把模型提升多少?
平均较冻结原模型 1.10×、较最佳竞品记忆方法 1.15×,在 MemoryAgentBench 上 1.31×、LoCoMo 上 1.20×。
用 δ-mem 需要微调大模型吗?
不需要。骨干保持冻结——δ-mem 不做全量微调、不替换骨干、不显式扩上下文;记忆是在生成时以低秩注意力修正注入的。
δ-mem 为什么用 delta 规则而不是把一切都存下来?
固定的 8×8 状态若只是不断累加关联会很快饱和。delta 规则写入「预测值与真实值之差」、覆盖陈旧内容,这正是让如此微小的状态保持有效信息的关键。
一句话:一块精心维护的 8×8 状态,胜过往窗口里硬塞更多文本。阅读 arXiv 原文。