AI Agent 的记忆谎言:上下文越来越长,并不等于它真的记住了
Site Owner
发布于 2026-04-25
行业花了一整年在喊上下文窗口突破、百万token时代到来。然后PlugMem告诉你:加更多上下文,Agent反而更笨。这道裂缝,撕开了AI Agent记忆问题的真面目。
AI Agent 的记忆谎言:上下文越来越长,并不等于它真的记住了
Anthropic 收购 Vercept 那天,我还看到另一条消息:PlugMem 论文发现了反直觉的事实——给 Agent 更多记忆上下文,它反而变得更差。
两条新闻放在一起,有意思的地方在于:
都在讲记忆,但方向完全相反。一拨人在拼命拉长上下文窗口,另一拨人在研究为什么更长的上下文让 Agent 脑子更乱。
这两件事之间,有一道裂缝。
上下文够长 ≠ Agent 记得住
2025 年最响亮的叙事是:Gemini 1.5 Pro 搞出 100 万 token 上下文,Claude 跟进 20 万,Kimi 搞出 200 万上下文。行业一顿欢呼:Agent 记忆问题解决了。
真的吗?
PlugMem 的研究说:没有。
他们测试的结论是这样的——
当 Agent 需要从历史里提取"现在该怎么做"的时候,上下文里的事件流不是知识,而是噪音。
你让 Agent 写代码,它确实能"看到"你三个月前说过的所有需求。但它要的不是需求清单,而是一个可以推理的工作路径。上下文里塞的东西越多,它反而越难找到真正有用的那个片段。
无限上下文是存储问题,不是记忆问题。
这两个概念长期被混淆。人类记忆不是把所有经历按时间顺序存档,检索时全量扫描。大脑做了大量的压缩、抽象、关联——这些才是记忆的本质。
现在的上下文填充方式,恰恰是反着来的:按时间倒序塞token,不做结构化处理,不区分事实性知识和程序性知识。
Anthropic 在做什么
Anthropic 收购 Vercept,官方说法是推进 Computer Use。
但背后还有一条暗线:Anthropic 自己的 Agent 记忆方案也在演进。
他们在 Claude 4.x 里实验了一种机制——跨会话状态持久化。不是简单把聊天历史塞进下一轮上下文,而是对历史做摘要蒸馏,提取可推理的工作状态。
区别大概是这样的:
| 方案 | 做法 | 效果 |
|---|---|---|
| 简单填充 | 历史对话全部塞进 context | 越长越慢,检索信号变噪音 |
| 摘要蒸馏 | 每次会话后提炼成结构化笔记 | 占用少,检索快 |
| 混合索引 | 向量库 + 摘要 + 实时上下文 | 精准但工程复杂 |
第三条路是目前头部公司在跑的。OpenAI 的 Agents SDK 新版、Claude Code、Hermes Agent,都在往这个方向走。
但问题是——
工程上能做出来,和用户真的用起来,是两件事。
Hermes 的 Skill 机制是个有意思的思路
Hermes Agent 的"记忆"方案很有意思:Agent 完成一个工作流,如果判断这个流程以后还能用,就把它自动存成一个 Skill。
这不是往 context 里塞更多东西,而是在 context 之外建立第二层记忆系统。
这个思路的底层逻辑是:
工作记忆(context)和长期记忆(skills)应该分开管理,不能混为一谈。
就像人不会把所有经历都塞进短期记忆再指望大脑自动分类。你会把常用的工作流程写成 SOP,存在外部,需要时调用。
PlugMem 的研究某种程度上验证了这个方向——他们发现"事件流"不适合直接做记忆输入,需要转换成"知识结构"。Hermes 的 Skill 就是把"事件流"变成"可复用的知识块"的工程实现。
这条路线能不能跑通,现在下结论太早。但它至少在问对问题。
为什么这个问题在 2026 年变尖锐了
因为 Agent 正在从"聊天玩具"变成"工作环境"。
你用 AI 帮忙写代码,5 轮对话能解决一个问题。你用 AI 帮你管客服、处理报销、操作内部系统——这类任务横跨几天、几十个操作节点,你没法每次都从零开始交代背景。
这就逼出了记忆问题:
Session 之间的状态怎么保持?
跨任务的工作上下文怎么积累?
哪些东西值得记住,哪些只是噪音?
上下文窗口的军备竞赛解决的是第一个问题的一部分。但第二和第三个问题,跟窗口有多长几乎没关系。
所以上下文不是银弹
不是说长上下文没用。它让 Agent 能看到更多历史,减少"忘了之前说过什么"的尴尬。
但它解决的是"容量"问题,不是"记忆"问题。
真正的记忆需要:
- 对信息做压缩和抽象 — 从对话记录里提炼关键决策点和当前状态
- 建立检索结构 — 不是线性扫描,而是按任务/项目/角色组织
- 区分输入和输出 — 哪些是事实,哪些是 Agent 的推断
能做到这三样的 Agent,现在一只手数得过来。
最后
行业花了一整年在说"上下文窗口突破""百万 token 时代到来"。
然后 PlugMem 告诉你,加更多上下文,Agent 反而更笨。
这大概就是 AI 发展的典型节奏:工程突破制造舆论高潮,三个月后研究者发现底层问题根本没变。
上下文窗口是基础设施,不是记忆系统。
这个混淆,会让很多 Agent 产品在生产环境里继续犯模糊地带的老毛病。
记住,不是存在。是组织。