你的 AI 还在"看图说话"?Browser Agent 正在爬出_demo地狱_
Site Owner
发布于 2026-04-25
Manus演示惊艳全网,MiniMax却悄悄拆掉了整个看图找按钮的架构。为什么Browser Agent总是倒在生产环境?不是模型不够强,是工程那层从一开始就没存在过。

你的 AI 还在"看图说话"?Browser Agent 正在爬出_demo地狱_
Manus 在社交媒体上炸场,只用了一个演示视频。
视频里,AI 打开浏览器,筛选简历,生成排名表格,全程自主完成。评论区涌入惊叹:"Deep Research 凉了"、"通用 Agent 时代来了"。
同一天,另一条动态安静地滑过:MiniMax 披露了他们的 Computer Use 方案——把"看图找按钮"这套做法彻底拆解,窗口管理走 API,浏览器元素走 DOM 选择器,模型只负责决策。
两条路线,同一个目标。但只有一条在认真解决真实问题。
演示视频是一场精心策划的骗局
不是说作弊。是说演示本质上是在展示"这件事能成功",不是"这件事能稳定地做成"。
Browser Agent 的演示逻辑是这样的:
- 挑一个 AI 擅长录屏的简单任务
- 调试到零失误
- 录屏,剪掉中间卡顿的片段
- 发布,欢呼
你见过 AI Agent 演示订餐、填表、筛选简历。
你没见过的场景:弹窗突然出现挡住目标按钮。页面加载慢了 2 秒,AI 已经点了错误的元素。网页更新了 UI,AI 在找一个已经不存在的下拉菜单。
这是可靠性工程里最常见的陷阱:演示成功 ≠ 生产成功。
一条消息的失误率可能是 5%。十个步骤串联起来,0.95^10 ≈ 60%。一百步?0.95^100 ≈ 0.6%。
演示通常在 5-10 步以内完成。真实自动化任务往往 50 步起步。
"看图说话"是 Browser Agent 的原罪
当前大多数 Browser Agent 的实现逻辑:
模型截图 → 识别"下一步该点哪" → 输出像素坐标 → 点击
这套方案的致命缺陷藏在第三步:像素坐标是环境相关的脆弱常量。
显示器分辨率变化,坐标就错。页面 UI 改版,按钮消失。弹窗突然弹出,AI 对着空区域猛点。
MiniMax 把这个问题拆得更干净:不同操作类型,用不同工具,不让模型数像素。
| 操作类型 | 错误来源 | MiniMax 方案 |
|---|---|---|
| 窗口管理 | 截图识别慢 | 直接调窗口 API |
| 浏览器元素定位 | 像素偏差 | DOM 选择器 |
| 剪贴板读写 | 格式误读 | 系统剪贴板直读直写 |
| 截图验证 | 分辨率差异 | 相对坐标 + 自适应缩放 |
模型只做它唯一擅长的事:推理和决策。所有确定性操作旁路模型。
这是正确的分工。但大多数 Browser Agent 做不到,因为它们从第一天就把"截屏识别"当成了核心能力而不是过渡方案。
为什么 Browser Agent 的错误不主动暴露
比失败更危险的事:Agent 不知道自己失败了,然后继续往下跑。
你让 AI 帮你订一张机票。它打开了错误的航空公司页面,选了贵三倍的价格,填完了所有乘客信息,提交了订单——全程没有报错,因为它不知道错了。
这不是模型问题。这是状态追踪层的缺失。
PlugMem 的研究揭示了一个反直觉的结论:给 Agent 更多记忆上下文,它反而变得更差。原因不是记忆不够,是记忆的组织方式错了——事件流≠知识结构,当 Agent 需要从历史里提取"现在该怎么做",它面对的是噪音而不是信号。
上下文空间是稀缺资源,不是无限资产。越接近决策点的信息越近,历史过程只保留提炼后的结论。
Manus 们的真正局限不在能力,在边界
Browser Agent 真正适合的场景:
- 结构化网站(航空公司、招聘平台、电商后台)
- 操作流程固定(表单填写、数据查询、报表生成)
- 错误可容忍(不需要 100% 成功,人工可介入修正)
Browser Agent 真正不适合的场景:
- 依赖精确鼠标操作的老旧 Web 应用
- 需要理解多模态上下文的复杂判断
- 对成功率要求极高的财务/医疗操作
- 需要联网查资料再操作的混合任务(这个Manus尝试解决了)
Manus 的方向是对的——通用 Browser Agent 作为入口,承接多种操作场景。但 Demo 里的惊艳和 Demo 背后的工程债务,是两件完全不同的事。
通用 Agent 的边界不是能力不够,是架构不对。
2025 年 Browser Agent 的真实进化方向
不是让模型更会"看图"。
是让确定性操作彻底脱离模型,让模型只做决策。
具体来说有三个工程节点:
1. 工具接口分层 模型输出高阶指令("滚动到联系区域"),API 执行物理操作(scrollIntoView)。模型不输出像素坐标。
2. 每步验证机制 操作后自动截图或 DOM 比对,确认执行结果符合预期。不符合就触发诊断流程,而不是盲目继续。
3. 错误边界的主动暴露 Agent 不知道下一步怎么走时,主动停住告诉用户"这里卡了",而不是随便选一个方向跑下去。宁可承认失败,不可用错误结果冒充成功。
最后
Browser Agent 不是一个新鲜概念。它在 2023 年的 AutoGPT 时代就被包装过一遍,2024 年随着 Claude Computer Use 又火了一次,2025 年借着 Manus 再来一轮。
每一轮都在"Demo 惊艳"和"生产哑火"之间重复同一个故事。
真正改变局面的不会是最炫酷的演示视频,而是把 Computer Use 当成系统工程而不是模型能力来做的团队。
看 MiniMax 的路线,比看 Manus 的演示,更让人兴奋。
不是因为它更酷。是因为它在解决真正的问题。
你用过 Browser Agent 吗?踩过什么坑?欢迎评论区交流。
<!-- 配图建议: - 封面:Browser Agent 概念图,浏览器窗口+AI大脑视觉化对比 - fig1:演示成功率 vs 生产成功率对比曲线(阶梯下降) - fig2:MiniMax 四层工具域架构图 -->