视频生成的中美分叉:Sora关闭那天,硅谷关灯,中国在数钱
Site Owner
发布于 2026-04-27
OpenAI关闭Sora那天,日亏损100万美元,排名第19。中国这边,可灵年营收破10亿,即梦成了电商标配,Sand.ai的VidMuse两个月做到1000万美金ARR。这是技术差距?不。这是两种市场、两种用户、两种商业逻辑的必然分化。
视频生成的中美分叉:Sora关闭那天,硅谷关灯,中国在数钱
OpenAI 终于关掉了 Sora。
4月26日,应用停服;9月24日,API关闭。这意味着这款曾被用来对标"AI的ChatGPT时刻"的视频生成产品,正式从市场上消失。
数字最能说明问题:Sora 每天亏损约 100万美元。日活跃用户在移动端上线后短暂冲到 100 万,随即腰斩,跌到不足一半。Sora 2 Pro 在排行榜上排第 19,排在字节跳动、Kling、Google Veo 之后。
这是 OpenAI 的失败,但不是视频生成的失败。
就在 Sora 关闭消息传出的同一周,国内视频生成产品的增长曲线完全是另一番景象:可灵年营收突破 10 亿人民币,即梦正在承接大量电商内容生产,Seedance 的多镜头叙事成了行业技术标杆。
一个正在关灯,一个正在数钱。
这不是技术差距。这是两种市场、两种用户、两种商业逻辑的必然分化。
硅谷在做什么:世界模型,而不是视频
仔细看美国公司的选择,会发现一个清晰的方向转移。
OpenAI 停掉 Sora,核心原因是"算力性价比"——生成一段视频需要消耗的算力是文字的几十倍,但用户的付费意愿远不如企业级 coding 产品。OpenAI 选择把算力倾斜给 coding Agent,世界模型团队接手了 Sora 的技术积累。
Runway 也在做类似的事。这家曾经做"专业创作者视频工具"的公司,叙事重心越来越偏向世界模型。Luma AI 也是如此。
曹越(Sand.ai 创始人,前光年之外联合创始人)说了一句很直接的话:"他们(美国公司)在弱化产品、强化模型。"
这不是贬义。在硅谷的逻辑里,如果一个产品的商业化路径太长、不确定性太高,最理性的选择是回到更底层的能力建设。模型能力才是护城河,产品只是模型能力的包装。
所以 Runway 宁可花更多时间训练下一代世界模型,也不愿意继续在现有的产品功能上做增量优化。
中国在做什么:商业化闭环,付费优先
中国公司的选择完全相反。
Sand.ai 的 VidMuse 两个月做到 1000 万美元 ARR,单周收入 20 多万美元。可灵、即梦、Seedance 的年营收都在高速增长。字节跳动的即梦在电商场景里已经成为标准内容生产工具。
这种分化的根源,不是中国公司技术更强,而是中国市场更愿意为视频内容付费。
曹越分析得很准:过去十年,中国最热的产品是微信和短视频。整个市场对 ToC 内容消费的感知和付费习惯,远比北美成熟。北美的 C 端大钱更多被 Meta 这样的巨头拿走,创业公司习惯在 ToB SaaS 挣钱。
所以中国公司面对视频生成这个能力,第一反应不是"这能不能成为下一个 ChatGPT",而是"谁愿意为这个能力付钱"。
答案很清晰:本来就在做内容生产的专业创作者——短视频创作者、电商卖家、广告主、短剧制作方。
过去他们需要租场地、灯光、演员、后期,现在变成了"写好 prompt,点击生成"。这个替代路径短、付费意愿强、替代成本清晰。
两条路线背后的本质差异
表面看,这是"战略选择"的不同。深层看,是两套完全不同的产品哲学。
美国路线是从能力出发,找应用场景。模型能力是主角,产品是模型的放大器。世界模型跑通了,视频生成作为子功能自然受益。
中国路线是从场景出发,拼模型能力。哪个场景先能付费,就先打哪个场景。模型是工具,场景是入口。
这两种路线没有对错之分。硅谷相信"能力到了,应用自然会来",中国相信"先把钱赚了,再谈诗和远方"。
问题在于,视频生成这条赛道,正在经历一个关键转折:它不再只是"Demo 好看"的炫技场,而是正在成为真正的内容生产基础设施。
当用户开始把视频生成工具真正用进日常工作流的时候,商业闭环的早晚会决定谁能活到明天。
视频生成的下一站:不是工具,是制片伙伴
现在最值得关注的,不是哪个模型的排行榜分数更高,而是视频生成正在从"工具"进化到"Agent"。
VidMuse 2.0 展示的方向很有意思:它不想只做一个"单点工具",而是希望成为"一个完整的乙方"。
用户不需要在 DeepSeek、Midjourney、生图工具之间来回穿梭,自己搭管线。只需要说目标,Agent 去组织流程、调度工具、交付视频。用户更像是"制片人":烧 Token,得到满意的作品。
这个方向的关键,是 Memory 和信任关系。
曹越说得很清楚:"现在 AI Agent 产品最大的问题之一,是稳定性很差,很难和用户建立可信赖的关系。"
VidMuse 的策略是:先解决各种小幻觉,让用户敢信你。然后在多轮使用中记住用户的偏好——用户喜欢诺兰就不要推别的导演风格,用户不喜欢紫色就不要再往这个方向走。
Memory(长期记忆)和信任关系,是 Video Agent 的灵魂。
中国公司的机会窗口
视频生成这条赛道,中国公司的优势比外界感知的大。
曹越有一个判断:"在视频这个方向上,中国公司的模型能力已经处在世界第一梯队了,这也是它们更容易率先把商业场景打出来的原因。"
这和语言模型不一样。语言模型上中美仍有 gap,但在视频模型上,字节跳动的可灵、Seedance 的多镜头叙事,已经是全球前列。
机会在于:当模型能力不再是最核心的变量时,产品化能力、商业化速度、用户洞察就成了决定因素。而这些,恰恰是中国公司最擅长的事情。
Sora 关闭的真正意义,不是证明视频生成没有未来,而是证明了:一个 demo 能跑不等于一个产品能活。视频生成的下半场,属于那些真正把用户付费路径走通的公司。
硅谷在建造发电厂,中国在铺设电网。
最后谁点亮世界,取决于谁先把电费收上来。
相关素材来源:DeeplearningAI The Batch #937、极客公园对话 Sand.ai(2026.04)