给 AI Agent 装更多内存,反而更笨了
Site Owner
Published on 2026-04-30
微软研究院论文发现:给Agent更多记忆反而导致任务完成率下降。全量记忆注入比无记忆基准还差。PlugMem的选择性记忆方案将完成率从48.1%提升到61.7%。

给 AI Agent 装更多内存,反而更笨了
一个违背直觉的发现,正在改写 Agent 架构的游戏规则。
你大概听过一个说法:AI Agent 的上下文窗口就是它的"脑子"。窗口越大,能记住的东西越多,推理就越连贯。
这个逻辑听起来无懈可击。
但微软研究院最近一篇论文甩出一个反直觉的结论——给 Agent 更多记忆,它的任务完成率反而下降了。
不是边际效益递减,是直接负增长。
这到底是怎么回事?
PlugMem:记忆越多,笨蛋越笨
这篇论文叫 PlugMem,专门研究多轮对话 Agent 的记忆利用问题。
研究团队设计了一个基准测试,让 Agent 在多轮对话中完成复杂任务(比如帮人订旅行行程、协调多人日程),然后对比不同记忆注入策略下的表现。
结果炸裂:
| 记忆策略 | 任务完成率 |
|---|---|
| 无记忆基准 | 52.3% |
| 全量记忆注入 | 48.1% |
| 选择性记忆注入(PlugMem) | 61.7% |
全量注入比没有记忆还差。
论文里给的解释是这样的:大量历史对话会形成语义噪声——相关和不相关的信息搅在一起,模型花在"区分重要程度"上的注意力资源,远超它实际处理任务的资源。
换句话说,Agent 被自己的回忆淹没了。
这让我想到人类里的一个现象:为什么有些人记性越好,考试越差?
不是因为记忆本身有问题,而是因为他们把太多精力花在回忆"这个知识点在哪一页"而不是"这个知识点是什么"上。
Agent 也正在经历这个阶段。
上下文工程:从"塞进去"到"取舍"
如果简单堆记忆不行,那什么才行?
答案是:让 Agent 自己学会遗忘。
这不是新概念。人类大脑本身就是选择性遗忘的机器——你会忘记昨晚吃了什么,但不会忘记初恋第一次约会的细节。遗忘不是缺陷,是注意力分配的策略。
PlugMem 的做法是给记忆加一个可插拔的记忆模块,通过一个轻量级的评分机制自动判断:这段对话历史,值不值得被记下来?
评分维度有三个:
- 任务相关性:这段对话和当前目标有没有关系?
- 信息唯一性:这段内容之前有没有被覆盖过?
- 时间衰减:太久远的信息自动降权
只有得分超过阈值的历史片段,才会被注入到 Agent 的上下文里。
这本质上是把"上下文工程"这件事,从人类 prompt 工程师的手里,移交给了模型自己。
另一个旁证:RAG 的天花板
RAG(检索增强生成)这两年火得一塌糊涂,逻辑很简单:模型不知道的东西,去外部知识库查。
但很多团队在实践中发现一个诡异现象:上了 RAG 之后,模型反而更容易产生幻觉了。
原因和 PlugMem 发现的问题一模一样——检索回来的文档质量参差不齐,模型在生成时既要处理用户问题,又要判断检索结果的可信度,还要把两者融合起来输出。认知负荷不降反升。