行业花了一整年在喊上下文窗口突破、百万token时代到来。然后PlugMem告诉你：加更多上下文，Agent反而更笨。这道裂缝，撕开了AI Agent记忆问题的真面目。

AI Agent 的记忆谎言：上下文越来越长，并不等于它真的记住了

Anthropic 收购 Vercept 那天，我还看到另一条消息：PlugMem 论文发现了反直觉的事实——给 Agent 更多记忆上下文，它反而变得更差。

两条新闻放在一起，有意思的地方在于：

都在讲记忆，但方向完全相反。一拨人在拼命拉长上下文窗口，另一拨人在研究为什么更长的上下文让 Agent 脑子更乱。

这两件事之间，有一道裂缝。

上下文够长 ≠ Agent 记得住

2025 年最响亮的叙事是：Gemini 1.5 Pro 搞出 100 万 token 上下文，Claude 跟进 20 万，Kimi 搞出 200 万上下文。行业一顿欢呼：Agent 记忆问题解决了。

真的吗？

PlugMem 的研究说：没有。

他们测试的结论是这样的——

当 Agent 需要从历史里提取"现在该怎么做"的时候，上下文里的事件流不是知识，而是噪音。

你让 Agent 写代码，它确实能"看到"你三个月前说过的所有需求。但它要的不是需求清单，而是一个可以推理的工作路径。上下文里塞的东西越多，它反而越难找到真正有用的那个片段。

无限上下文是存储问题，不是记忆问题。

这两个概念长期被混淆。人类记忆不是把所有经历按时间顺序存档，检索时全量扫描。大脑做了大量的压缩、抽象、关联——这些才是记忆的本质。

现在的上下文填充方式，恰恰是反着来的：按时间倒序塞token，不做结构化处理，不区分事实性知识和程序性知识。

Anthropic 在做什么

Anthropic 收购 Vercept，官方说法是推进 Computer Use。

但背后还有一条暗线：Anthropic 自己的 Agent 记忆方案也在演进。

他们在 Claude 4.x 里实验了一种机制——跨会话状态持久化。不是简单把聊天历史塞进下一轮上下文，而是对历史做摘要蒸馏，提取可推理的工作状态。

区别大概是这样的：

方案	做法	效果
简单填充	历史对话全部塞进 context	越长越慢，检索信号变噪音
摘要蒸馏	每次会话后提炼成结构化笔记	占用少，检索快
混合索引	向量库 + 摘要 + 实时上下文	精准但工程复杂

第三条路是目前头部公司在跑的。OpenAI 的 Agents SDK 新版、Claude Code、Hermes Agent，都在往这个方向走。

但问题是——

工程上能做出来，和用户真的用起来，是两件事。

Hermes 的 Skill 机制是个有意思的思路

Hermes Agent 的"记忆"方案很有意思：Agent 完成一个工作流，如果判断这个流程以后还能用，就把它自动存成一个 Skill。

这不是往 context 里塞更多东西，而是在 context 之外建立第二层记忆系统。

这个思路的底层逻辑是：

工作记忆（context）和长期记忆（skills）应该分开管理，不能混为一谈。

就像人不会把所有经历都塞进短期记忆再指望大脑自动分类。你会把常用的工作流程写成 SOP，存在外部，需要时调用。

PlugMem 的研究某种程度上验证了这个方向——他们发现"事件流"不适合直接做记忆输入，需要转换成"知识结构"。Hermes 的 Skill 就是把"事件流"变成"可复用的知识块"的工程实现。

这条路线能不能跑通，现在下结论太早。但它至少在问对问题。

为什么这个问题在 2026 年变尖锐了

因为 Agent 正在从"聊天玩具"变成"工作环境"。

你用 AI 帮忙写代码，5 轮对话能解决一个问题。你用 AI 帮你管客服、处理报销、操作内部系统——这类任务横跨几天、几十个操作节点，你没法每次都从零开始交代背景。

这就逼出了记忆问题：

Session 之间的状态怎么保持？

跨任务的工作上下文怎么积累？

哪些东西值得记住，哪些只是噪音？

上下文窗口的军备竞赛解决的是第一个问题的一部分。但第二和第三个问题，跟窗口有多长几乎没关系。

所以上下文不是银弹

不是说长上下文没用。它让 Agent 能看到更多历史，减少"忘了之前说过什么"的尴尬。

但它解决的是"容量"问题，不是"记忆"问题。

真正的记忆需要：

对信息做压缩和抽象 — 从对话记录里提炼关键决策点和当前状态
建立检索结构 — 不是线性扫描，而是按任务/项目/角色组织
区分输入和输出 — 哪些是事实，哪些是 Agent 的推断

能做到这三样的 Agent，现在一只手数得过来。

最后

行业花了一整年在说"上下文窗口突破""百万 token 时代到来"。

然后 PlugMem 告诉你，加更多上下文，Agent 反而更笨。

这大概就是 AI 发展的典型节奏：工程突破制造舆论高潮，三个月后研究者发现底层问题根本没变。

上下文窗口是基础设施，不是记忆系统。

这个混淆，会让很多 Agent 产品在生产环境里继续犯模糊地带的老毛病。

记住，不是存在。是组织。