从15%到72.5%:AI「动手」能力迎来拐点
Site Owner
发布于 2026-05-04
Anthropic收购Vercept,OSWorld基准从15%跃升至72.5%。Claude的computer use能力迎来拐点,AI从「说话」到「动手」的分水岭时刻来临。本文解析这场收购背后的技术逻辑和产品信号。
从15%到72.5%:AI「动手」能力迎来拐点
当Claude学会点鼠标,Demo地狱就要结束了。
2024年末,Claude刚学会「操控电脑」时,OSWorld基准测试得分不到15%。
这个数字的潜台词是:你让它填个表格,十次有九次会点错按钮;你让它在浏览器里跨标签页填表单,它会像第一次用电脑的老年人一样在界面上迷失。
一年半之后,这个数字跃升到了72.5%——「接近人类水平」。
发生这种变化的直接原因,是Anthropic上周收购了一家叫Vercept的计算机视觉公司。
15%到72.5%:操作系统级Benchmark的残酷标尺
OSWorld,这个测试AI操控电脑能力的Benchmark,在行业内出了名的难用。
它的测试场景覆盖真实操作系统:打开Excel跨列计算、在浏览器里填政府申请表格、操作PDF编辑器完成格式转换。这些任务对人类来说是「基础技能」,但对AI来说,每一步都涉及感知+决策+执行的闭环——任何一环出错,任务就崩。
2024年底,Claude第一次交出的成绩是「低于15%」。
2025年中,这个数字爬到了30%出头。
2026年2月,Claude Sonnet 4.6发布,72.5%。
这个进步曲线不是线性的,更像是经历过一次「顿悟时刻」。从30%到72.5%,Claude解决的不只是「模型变聪明」的问题——它解决的是AI能否可靠地「看见界面」并「精确操作」的难题。
感知和交互,是两件完全不同的事。
语言模型可以理解「这张Excel表需要在第三列填入总计」,但它能否精确地点击到那个需要填入的空格子?能否在弹出窗口出现时识别出「确定」按钮的位置?能否在浏览器多标签之间维持正确的上下文?
这些问题的答案,在2026年之前都是「勉强能,但不可靠」。
Vercept解决的就是这个问题。
Vercept是谁?解决的是什么问题?
Vercept是一家专注于「AI视觉与交互」的研究型公司,三位联合创始人Kiana Ehsani、Luca Weihs和Ross Girshick都是计算机视觉领域的老将。
他们的核心研究方向,用一句话概括就是:让AI系统能够像人类一样「看见」软件界面并「操作」它。
这听起来像是「多模态大模型」的本职工作,但实际上存在一个巨大的技术鸿沟:
通用视觉模型能识别「这是一张电子表格」,但它无法精确理解「当前光标位置在第7行第4列」「这个按钮的坐标范围是(342, 156)到(398, 182)」这类细粒度空间信息。
人类操作电脑时,大脑会实时处理这些空间数据——看到按钮,手就移过去了。但AI系统需要把这种模糊的空间直觉转化为精确的坐标输出。这中间隔着一整套「视觉定位」的技术栈。
Vercept多年积累的,正是这套技术栈。他们的研究直接对应Anthropic在「computer use」能力上最核心的瓶颈:模型「看到了」,但「点不准」。
这也是为什么Anthropic选择收购,而不是合作。
收购不是买团队,是买时间
Anthropic在收购公告里有一句话很有意思:
「Vercept将在未来几周内关闭其外部产品,并加入Anthropic推进computer use能力的边界。」
「关闭外部产品」——这意味着Vercept之前有商业化产品,团队选择放弃外部收入,全部押注Anthropic内部。
这不是普通的「人才收购」,这是技术路径已经验证后的战略整合。
从时间线来看:Anthropic在2024年末推出computer use功能,2025年持续迭代,2026年Sonnet 4.6发布同时宣布收购Vercept。这个节奏说明,Anthropic在内部研发过程中已经意识到,靠自己攻克「精确视觉操作」这座堡垒需要的时间,比收购已经跑通的团队要慢得多。
买团队是常规操作,买一个已经验证过的技术路径,才是这笔收购的真实逻辑。
这不是在买工程师,是在买「已经知道路怎么走」的导航仪。
类似的逻辑可以参考Anthropic在2024年收购Bun——彼时Bun已经是市面上最受欢迎的JavaScript运行时之一,收购完成后Bun的团队直接服务于Claude Code的性能优化。
Vercept的逻辑完全相同:你们的视觉-操作融合技术已经是业内顶尖,现在把这套能力直接嵌进Claude的computer usepipeline。
为什么这件事值得写
因为computer use是AI从「说话」到「动手」的分水岭。
过去三年,大模型的能力进化主要体现在「理解」和「生成」两个维度——能听懂人话,能生成内容。但AI在真实世界的工作流里,最大的瓶颈从来不是「理解」,而是「执行」。
一个能帮你写报告的AI,价值有限;一个能帮你打开Excel、自动填充数据、点击发送邮件的AI,价值是数量级的跃升。
OSWorld从15%到72.5%的进步,对应的正是这种跃迁的前夜。
当然,72.5%不等于「AI可以完全替代人操作电脑」。但它意味着在一些特定的高价值场景——财务报销自动填写、海量数据表格处理、跨系统操作流——AI已经从「不可靠」进入「可尝试」的阶段。
对于技术从业者来说,这个数字背后还藏着另一个信号:computer use的技术路线已经收敛了。
之前行业内存在多条路线之争:纯视觉方案、多模态大模型方案、强化学习方案……现在Claude Sonnet 4.6的72.5%基本证明了,在OSWorld这类真实操作系统任务上,「视觉基础模型+精确空间定位」是走得通的技术路径。
这条路线一旦被验证,跟进者会快速涌入。Google、OpenAI、微软都不会袖手旁观。
普通用户什么时候能用上
答案是:比你想象的快,但比你期望的慢。
快,是因为Claude Code、Cursor等AI编程工具已经率先落地了computer use能力——让AI帮你操作IDE、修改文件、执行Terminal命令,这些都是真实发生的使用场景。
慢,是因为在通用场景(普通人的日常电脑操作)落地还需要解决:不同操作系统的界面差异、异常处理(AI点错了怎么回滚)、隐私安全(AI操作你的电脑时能看到什么)这些问题。
但Anthropic收购Vercept本身就是一个信号——当一家公司开始系统性收购「视觉操作」相关的技术团队,就说明这个方向已经不是研究课题,而是产品化的冲锋阶段了。
从15%到72.5%用了不到两年。从72.5%到能替代你每天30%的电脑操作,保守估计还需要两到三年——但对于这个速度,AI行业从业者应该已经不陌生了。
AI学会点鼠标这件事,比看起来要重塑更多东西。
OSWorld 72.5%数据来源:Anthropic官方博客,2026年2月发布。