AI不再只会说话——空间智能正在接管物理世界
Site Owner
Published on 2026-04-29
群核科技港股暴涨171%成为空间智能第一股,同期BeingBeyond发布端侧实时世界模型、智元机器人灵巧手穿针。两条路线同时跨过临界点,标志着物理AI的Scaling Law正式成立。AI不再只是处理语言和图像,而是开始理解重力、碰撞和摩擦力——这场从数字世界走向物理世界的竞赛,才刚刚开始。

AI不再只会说话——空间智能正在接管物理世界
AI终于开始"动手"了。
上周,智元机器人发布远山系列全尺寸人形机器人,搭载全自研A2边际手持末端灵巧手,能穿针、拉链、抓取柔性物体。同一天,BeingBeyond发布具身世界模型Being-H0.7——全球首个在端侧实时运行的物理AI系统,背后是人类视频驱动的隐式推理路线。
两条路线同时跨过临界点,不是巧合。
具身智能为什么卡了两年
过去两年,具身智能的日子并不好过。
2024年喊出"具身智能元年",结果元年变成了"演示年"。能跑能跳能抓东西,但一问到商业化——沉默。
问题出在哪?
数据是根本瓶颈。 训练一个能泛化的具身模型,需要海量真实世界里物体交互的数据。早期行业靠仿真(Synthetic Data)和真机数采(Data Factory)两条腿走路。但仿真数据与真实物理世界存在"sim2real gap",真机数采成本极高、效率低,且采集到的样本在背景、任务、物体和操作轨迹上高度同质化。
换句话说:机器人学会了一个场景,换个房间就不会了。
这就跟早期LLM训练语料里中文太少一样——你喂它多少,它就懂多少。
三条路线,最终殊途同归
2025年下半年开始,局面变了。突破口来自三个方向:
第一条路:人类视频数据。 这是BeingBeyond走的方向——直接用人类视频作为训练数据。20万小时的人类视频,天然与真实世界对齐,且分布式采集带来的多样性是集中式真机数采难以替代的。NVIDIA在GR00T项目中也提出了"数据金字塔"框架,塔底正是人类视频。
这本质上是用互联网的"隐式知识"——人类做饭、搬东西、收拾房间的日常视频——训练机器的物理直觉。
第二条路:推理能力提升。 具身模型要理解"重力意味着什么"、"杯子推到什么位置会掉",这些物理常识需要强大的时空推理能力。随着MLLM(多模态大语言模型)能力跃升,模型不仅能"看见"画面,还能推断画面之外物体的运动趋势。
第三条路:端侧部署。 世界模型如果在云端运行,延迟高、稳定性差,无法支撑实时机器人控制。一旦能在端侧实时运行——就像BeingBeyond做到的那样——机器人的"大脑"就不再依赖网络,随时在线、随时反应。
三条路线同时突破临界点,产生了共振效应:数据供给、推理能力、执行能力,三件事同时跨过临界点,物理AI的Scaling Law正式成立。
群核上市:空间智能的第一个商业闭环
最直接的市场验证来自资本市场。
4月16日,群核科技在港股上市,开盘暴涨171%。这家公司被称为"空间智能第一股"——它的核心业务是空间数据的采集、建模和理解,服务于建筑、家居、制造业的三维数字化。
群核CEO黄晓煌说了一句话很准确:LLM教会了AI"说话",但要让AI真正走进物理世界,需要空间智能这座桥梁。
这不是一个大模型故事,而是一个数据基础设施的故事。群核82%的毛利率说明了一件事:空间数据资产,是AI理解物理世界的新型生产资料。
李飞飞、腾讯、阿里都在抢的到底是什么
全球范围内,具身智能/空间智能已经形成清晰的竞争格局:
- 李飞飞的WorldLabs:获得5.4亿美元融资,定位"世界模型基础设施"
- Physical Intelligence(PI):发布π0系列,扎堆真机数采路线
- NVIDIA:GR00T项目,提出数据金字塔框架
- 腾讯RoboticsX:在机器人灵巧操作上持续投入