机器人怎么“看懂”一杯水会不会洒？无界动力用一份错题集干到了全球第一 RoboCasa GR1 TableTop 榜单，全球第一。 75.2% 平均任务成功率，把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候，无界动力这家公司才成立刚满一年。更让人意外的是另一组数字——榜单公布前，他们已经签下近 1 亿美元全球订单，其中仅与远景科技一家就签了超 5 亿元人民币，这是国内...

机器人怎么“看懂”一杯水会不会洒？无界动力用一份错题集干到了全球第一

RoboCasa GR1 TableTop 榜单，全球第一。

75.2% 平均任务成功率，把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候，无界动力这家公司才成立刚满一年。

更让人意外的是另一组数字——榜单公布前，他们已经签下近 1 亿美元全球订单，其中仅与远景科技一家就签了超 5 亿元人民币，这是国内具身操作智能赛道的第一个亿元级海外大单（来源：量子位 https://www.qbitai.com/2026/06/439891.html）。

RoboCasa GR1 TableTop 榜单任务成功率对比（无界动力 MWA-WALA 75.2% vs 第二名 72.8% vs 英伟达 GR00T-N1.6 70.5%）

一年时间从 0 到全球第一、再到亿元订单。如果不是 RoboCasa 这种斯坦福系榜单有公认含金量，我会以为又是 PPT 造公司。但仔细拆开他们的技术方案，我发现了一件更有意思的事——整个具身智能圈子里，几乎没人跟他们走同一条路。

像素级预测，正在把机器人搞废

先问你一个问题：机器人端一杯水，到底该不该算水的折射？

大多数世界模型的做法是——算。逐帧预测像素，每毫秒更新环境状态，把光影、纹理、深度全都算一遍。听起来很严谨，落地就是灾难。10 秒钟的连续动作里，单步预测的微小误差会被时序放大成滚雪球，最后水洒了、杯子掉了、机器人的手在空气里乱抓。

像素级预测本身，就是把机器人往沟里带的设计。

无界动力的解法是不逐帧推断。MWA™ 一次性输出 Chunk 级动作组，把连续 10 秒以上的视觉序列当成一段整体来推演，让误差放大没机会发生。

但真正让 MWA™ 和同行拉开距离的，是另外三个字——

潜动作。

MWA™ 隐空间世界模型架构图：从像素观测到潜动作抽取，再到双向因果互审，最后输出 Chunk 级长时序动作

潜动作，是机器人的肌肉记忆

你端水的时候，脑子里会算杯子倾斜角速度与液面波动的关系吗？不会。你的大脑在潜动作空间里完成这件事——一种比“思考”低一层、比“反射”高一层的因果归纳。你知道“这么端不会洒”，是因为神经系统基于大量试错，在动作变化层面建立了一套不依赖像素标注的因果模型。

MWA™ 走的就是这条路。它不逐帧标注像素，直接在“动作变化”层面做物理因果归纳。机器人推一个杯子，它不去预测每一毫秒杯子边缘的 RGB 值怎么变，而是在潜空间预判：这个推力向量作用在杯子重心那个位置，会导致倾倒还是滑动。

这个区别有多大？举一个量化场景——高精密插接任务。同样在含噪声数据下，传统视觉模型几乎报废，因为灰尘、反光、遮挡会让花三个月标注的像素特征瞬间失效。MWA™ 在这种数据上，任务成功率最高提升 5 倍（来源：量子位）。

5 倍提升不是优化，是换了一条技术路线。

更关键的是，这套机制还盘活了一座金山。互联网上的视频几乎都没有人类标注过动作，传统路线根本没法用。MWA™ 借助潜动作，能直接把数十亿原始视频当训练数据，让数据利用效率跨进一个量级。

你缺的不是数据，是错题集

聊到数据，无界动力还做了一件反常识的事。

整个行业都在卷正样本——抓取成功 1000 次，模型就“学会了”什么叫成功的抓取。但失败瞬间里藏着更值钱的信息：力度差 1 牛顿会滑落、角度偏 2 度会卡死。这些临界数据，正样本堆里几乎找不到。

无界动力整了一套叫 AnyPhys 的负样本数据体系。说白了，就是给机器人做一份错题集。几万条失败、失稳和临界边界样本被系统性沉淀下来，这堆东西不是数据，是物理世界的黑暗知识。

机器人怎么“看懂”一杯水会不会洒？无界动力用一份错题集干到了全球第一

机器人怎么“看懂”一杯水会不会洒？无界动力用一份错题集干到了全球第一

像素级预测，正在把机器人搞废

潜动作，是机器人的肌肉记忆

你缺的不是数据，是错题集

物理 AI 这场仗，最终拼的不是榜单排名

Demo 结束了，下一题是真干活、真交付