Anthropic收购Vercept，OSWorld基准从15%跃升至72.5%。Claude的computer use能力迎来拐点，AI从「说话」到「动手」的分水岭时刻来临。本文解析这场收购背后的技术逻辑和产品信号。

从15%到72.5%：AI「动手」能力迎来拐点

当Claude学会点鼠标，Demo地狱就要结束了。

2024年末，Claude刚学会「操控电脑」时，OSWorld基准测试得分不到15%。

这个数字的潜台词是：你让它填个表格，十次有九次会点错按钮；你让它在浏览器里跨标签页填表单，它会像第一次用电脑的老年人一样在界面上迷失。

一年半之后，这个数字跃升到了72.5%——「接近人类水平」。

发生这种变化的直接原因，是Anthropic上周收购了一家叫Vercept的计算机视觉公司。

15%到72.5%：操作系统级Benchmark的残酷标尺

OSWorld，这个测试AI操控电脑能力的Benchmark，在行业内出了名的难用。

它的测试场景覆盖真实操作系统：打开Excel跨列计算、在浏览器里填政府申请表格、操作PDF编辑器完成格式转换。这些任务对人类来说是「基础技能」，但对AI来说，每一步都涉及感知+决策+执行的闭环——任何一环出错，任务就崩。

2024年底，Claude第一次交出的成绩是「低于15%」。

2025年中，这个数字爬到了30%出头。

2026年2月，Claude Sonnet 4.6发布，72.5%。

这个进步曲线不是线性的，更像是经历过一次「顿悟时刻」。从30%到72.5%，Claude解决的不只是「模型变聪明」的问题——它解决的是AI能否可靠地「看见界面」并「精确操作」的难题。

感知和交互，是两件完全不同的事。

语言模型可以理解「这张Excel表需要在第三列填入总计」，但它能否精确地点击到那个需要填入的空格子？能否在弹出窗口出现时识别出「确定」按钮的位置？能否在浏览器多标签之间维持正确的上下文？

这些问题的答案，在2026年之前都是「勉强能，但不可靠」。

Vercept解决的就是这个问题。

Vercept是谁？解决的是什么问题？

Vercept是一家专注于「AI视觉与交互」的研究型公司，三位联合创始人Kiana Ehsani、Luca Weihs和Ross Girshick都是计算机视觉领域的老将。

他们的核心研究方向，用一句话概括就是：让AI系统能够像人类一样「看见」软件界面并「操作」它。

这听起来像是「多模态大模型」的本职工作，但实际上存在一个巨大的技术鸿沟：

通用视觉模型能识别「这是一张电子表格」，但它无法精确理解「当前光标位置在第7行第4列」「这个按钮的坐标范围是(342, 156)到(398, 182)」这类细粒度空间信息。

人类操作电脑时，大脑会实时处理这些空间数据——看到按钮，手就移过去了。但AI系统需要把这种模糊的空间直觉转化为精确的坐标输出。这中间隔着一整套「视觉定位」的技术栈。

Vercept多年积累的，正是这套技术栈。他们的研究直接对应Anthropic在「computer use」能力上最核心的瓶颈：模型「看到了」，但「点不准」。

这也是为什么Anthropic选择收购，而不是合作。

收购不是买团队，是买时间

Anthropic在收购公告里有一句话很有意思：

「Vercept将在未来几周内关闭其外部产品，并加入Anthropic推进computer use能力的边界。」

「关闭外部产品」——这意味着Vercept之前有商业化产品，团队选择放弃外部收入，全部押注Anthropic内部。

这不是普通的「人才收购」，这是技术路径已经验证后的战略整合。

从时间线来看：Anthropic在2024年末推出computer use功能，2025年持续迭代，2026年Sonnet 4.6发布同时宣布收购Vercept。这个节奏说明，Anthropic在内部研发过程中已经意识到，靠自己攻克「精确视觉操作」这座堡垒需要的时间，比收购已经跑通的团队要慢得多。

买团队是常规操作，买一个已经验证过的技术路径，才是这笔收购的真实逻辑。

这不是在买工程师，是在买「已经知道路怎么走」的导航仪。

类似的逻辑可以参考Anthropic在2024年收购Bun——彼时Bun已经是市面上最受欢迎的JavaScript运行时之一，收购完成后Bun的团队直接服务于Claude Code的性能优化。

Vercept的逻辑完全相同：你们的视觉-操作融合技术已经是业内顶尖，现在把这套能力直接嵌进Claude的computer usepipeline。

为什么这件事值得写

因为computer use是AI从「说话」到「动手」的分水岭。

过去三年，大模型的能力进化主要体现在「理解」和「生成」两个维度——能听懂人话，能生成内容。但AI在真实世界的工作流里，最大的瓶颈从来不是「理解」，而是「执行」。

一个能帮你写报告的AI，价值有限；一个能帮你打开Excel、自动填充数据、点击发送邮件的AI，价值是数量级的跃升。

OSWorld从15%到72.5%的进步，对应的正是这种跃迁的前夜。

当然，72.5%不等于「AI可以完全替代人操作电脑」。但它意味着在一些特定的高价值场景——财务报销自动填写、海量数据表格处理、跨系统操作流——AI已经从「不可靠」进入「可尝试」的阶段。

对于技术从业者来说，这个数字背后还藏着另一个信号：computer use的技术路线已经收敛了。

之前行业内存在多条路线之争：纯视觉方案、多模态大模型方案、强化学习方案……现在Claude Sonnet 4.6的72.5%基本证明了，在OSWorld这类真实操作系统任务上，「视觉基础模型+精确空间定位」是走得通的技术路径。

这条路线一旦被验证，跟进者会快速涌入。Google、OpenAI、微软都不会袖手旁观。

普通用户什么时候能用上

答案是：比你想象的快，但比你期望的慢。

快，是因为Claude Code、Cursor等AI编程工具已经率先落地了computer use能力——让AI帮你操作IDE、修改文件、执行Terminal命令，这些都是真实发生的使用场景。

慢，是因为在通用场景（普通人的日常电脑操作）落地还需要解决：不同操作系统的界面差异、异常处理（AI点错了怎么回滚）、隐私安全（AI操作你的电脑时能看到什么）这些问题。

但Anthropic收购Vercept本身就是一个信号——当一家公司开始系统性收购「视觉操作」相关的技术团队，就说明这个方向已经不是研究课题，而是产品化的冲锋阶段了。

从15%到72.5%用了不到两年。从72.5%到能替代你每天30%的电脑操作，保守估计还需要两到三年——但对于这个速度，AI行业从业者应该已经不陌生了。

AI学会点鼠标这件事，比看起来要重塑更多东西。

OSWorld 72.5%数据来源：Anthropic官方博客，2026年2月发布。