你的 AI 还在"看图说话"?Browser Agent 正在爬出_demo地狱_
Site Owner
Published on 2026-04-25
Manus演示惊艳全网,MiniMax却悄悄拆掉了整个看图找按钮的架构。为什么Browser Agent总是倒在生产环境?不是模型不够强,是工程那层从一开始就没存在过。

你的 AI 还在"看图说话"?Browser Agent 正在爬出_demo地狱_
Manus 在社交媒体上炸场,只用了一个演示视频。
视频里,AI 打开浏览器,筛选简历,生成排名表格,全程自主完成。评论区涌入惊叹:"Deep Research 凉了"、"通用 Agent 时代来了"。
同一天,另一条动态安静地滑过:MiniMax 披露了他们的 Computer Use 方案——把"看图找按钮"这套做法彻底拆解,窗口管理走 API,浏览器元素走 DOM 选择器,模型只负责决策。
两条路线,同一个目标。但只有一条在认真解决真实问题。
演示视频是一场精心策划的骗局
不是说作弊。是说演示本质上是在展示"这件事能成功",不是"这件事能稳定地做成"。
Browser Agent 的演示逻辑是这样的:
- 挑一个 AI 擅长录屏的简单任务
- 调试到零失误
- 录屏,剪掉中间卡顿的片段
- 发布,欢呼
你见过 AI Agent 演示订餐、填表、筛选简历。
你没见过的场景:弹窗突然出现挡住目标按钮。页面加载慢了 2 秒,AI 已经点了错误的元素。网页更新了 UI,AI 在找一个已经不存在的下拉菜单。
这是可靠性工程里最常见的陷阱:演示成功 ≠ 生产成功。
一条消息的失误率可能是 5%。十个步骤串联起来,0.95^10 ≈ 60%。一百步?0.95^100 ≈ 0.6%。
演示通常在 5-10 步以内完成。真实自动化任务往往 50 步起步。
"看图说话"是 Browser Agent 的原罪
当前大多数 Browser Agent 的实现逻辑:
模型截图 → 识别"下一步该点哪" → 输出像素坐标 → 点击
这套方案的致命缺陷藏在第三步:像素坐标是环境相关的脆弱常量。
显示器分辨率变化,坐标就错。页面 UI 改版,按钮消失。弹窗突然弹出,AI 对着空区域猛点。
MiniMax 把这个问题拆得更干净:不同操作类型,用不同工具,不让模型数像素。
| 操作类型 | 错误来源 | MiniMax 方案 |
|---|---|---|
| 窗口管理 | 截图识别慢 | 直接调窗口 API |
| 浏览器元素定位 | 像素偏差 | DOM 选择器 |
| 剪贴板读写 | 格式误读 | 系统剪贴板直读直写 |
| 截图验证 | 分辨率差异 | 相对坐标 + 自适应缩放 |
模型只做它唯一擅长的事:推理和决策。所有确定性操作旁路模型。
这是正确的分工。但大多数 Browser Agent 做不到,因为它们从第一天就把"截屏识别"当成了核心能力而不是过渡方案。
为什么 Browser Agent 的错误不主动暴露
比失败更危险的事:Agent 不知道自己失败了,然后继续往下跑。
你让 AI 帮你订一张机票。它打开了错误的航空公司页面,选了贵三倍的价格,填完了所有乘客信息,提交了订单——全程没有报错,因为它不知道错了。
<!-- 配图建议: - 封面:Browser Agent 概念图,浏览器窗口+AI大脑视觉化对比 - fig1:演示成功率 vs 生产成功率对比曲线(阶梯下降) - fig2:MiniMax 四层工具域架构图 -->