AI Agent走向物理世界:从屏幕里的工具到真实世界的参与者
Site Owner
Published on 2026-05-27
Anthropic收购Vercept、MiniMax发布桌面Agent、OpenAI推出Operator——大厂们最近的动作出奇一致:把AI Agent从聊天的牢笼里放出来,让它能看屏幕、能点鼠标、能操作真实设备。这不只是功能叠加,这是一次范式转移。

AI Agent走向物理世界:从屏幕里的工具到真实世界的参与者
2011年,iPhone 4S上线Siri。科技圈兴奋了几天,然后就没有然后了——那一年Siri被评为"最鸡肋iPhone功能"。没人觉得语音助手会改变世界,它只是一个会说话的玩具。
十五年后,同样的故事正在AI Agent领域重演。只不过这一次,被低估的不是语音助手,而是"让AI操作电脑"这件事本身。
Anthropic收购Vercept,MiniMax发布支持Computer Use的桌面端Agent,OpenAI的Operator横空出世——大厂们最近的动作出奇一致:把AI Agent从聊天的牢笼里放出来,让它能看屏幕、能点鼠标、能操作真实设备。
这不只是功能叠加。这是一次范式转移。
从"答问题"到"做任务"
过去三年,AI Agent的核心叙事是"超级助手"——你问它问题,它给你答案;你让它写代码,它给你代码;你让它生成图片,它给你图片。所有的交互都发生在对话窗口内部,AI的输出就是你的终点。
Computer Use打破了这堵墙。
当Anthropic让Claude能直接操控用户的电脑桌面时,评价两极分化:有人觉得这是自找麻烦——一个能自主点鼠标的AI,万一手滑删了重要文件怎么办?但真正值得关注的是另一群人:他们看到的是"任务闭环"的可能性。
一个真正有用的Agent,不应该只返回一段文字。它应该能帮你把事情从开头做到结尾——找到文件、处理数据、写入系统、发送消息、确认完成。每一个环节都在AI的掌控之中,用户只需要最后看一眼结果。
这才是AI Agent本该有的样子。
屏幕里的变革,比你想象的更彻底
MiniMax前两周发布的一组Agent桌面端更新,把这个趋势讲得很具体。
他们没有用一个统一的"万能computer工具"处理所有操作,而是把桌面拆成了四个独立工具域:Desktop Control负责鼠标和键盘,Window Manager负责窗口调度,Browser Engine负责网页操作,Clipboard负责跨应用数据传递。
这背后的逻辑很朴素:不同任务有不同的最优路径。让AI用像素坐标去"猜"最小化按钮在哪,精度远不如直接调用系统API;让AI截图识别网页内容,远不如直接用DOM选择器定位元素。每种工具各司其职,Agent按需组合。
最终这套系统堆到了60+个工具。Agent执行任务时,会自己判断该用哪套工具链——该调用API的调用API,该操作界面的操作界面。
这个思路的潜台词是:真实世界的任务从来不是单一步骤,而是跨越多个系统、多层界面的连续动作。传统API对接只能覆盖"有接口"的部分,而Computer Use覆盖的是"所有有界面的"部分——哪怕是一个藏在系统设置深处、没有公开API的开关。
跨越两道门槛
让AI操作电脑这件事,走到今天主要跨越了两道门槛。
第一道是精度。
早期Computer Use的典型问题是"看起来能跑,但一用就崩"——模型在Demo里演示得天衣无缝,用户一上手就开始点错按钮。高分辨率屏幕信息过载,低分辨率屏幕画面模糊,模型输出的像素坐标在真实设备上根本对不准。
解决思路很直接:让模型输出相对坐标而非绝对坐标,由系统根据当前屏幕分辨率换算成真实像素。同时对截图做自适应缩放——无论用户用的是MacBook Retina还是外接4K显示器,模型看到的都是经过适配的最优尺寸。
第二道是信任。
一个能自主操作的AI,用户凭什么敢把电脑交给它?
答案不是"保证不出错",而是"让用户全程看见"。MiniMax的设计里,Agent每执行一步操作都会截图回传——用户在IM对话里就能看到AI正在做什么、在哪一步、结果是什么。透明度比可靠性更重要:用户不需要一个100%不会错的AI,但他们需要一个每一步都可追溯的AI。
为什么这件事被严重低估
科技圈对"让AI操作电脑"的反应,某种程度上映射了2011年Siri上线时的场景:功能看起来有点意思,但很难想象它会改变什么。