AI发展 2026年05月08日

世界模型:AI 真正进入现实世界前的那道坎

by BLL

世界模型:AI 真正进入现实世界前的那道坎

好,我们先把这件事讲明白。

世界模型这个词听起来很大,其实它想解决的问题很朴素:让 AI 不只是会读文字,而是真的知道现实世界怎么运转。

今天的大语言模型,强在语言。它们读了海量文本,学会了怎么说话、怎么总结、怎么生成内容。但现实世界不是文本。现实世界里有重力、摩擦、碰撞、材质、延迟和各种意外。你让模型描述“杯子会掉下去”很容易,让它真的预测“这个杯子碰到桌面后会怎么滚”,那就完全是另一回事了。

所以说,世界模型的目标不是单纯识别图片,也不是只做路径规划,而是让机器在脑子里形成一个关于世界如何运作的内部表征。就是说,它要让 AI 不只是“看见”,而是“理解”。

为什么大家突然都在押注它

这两年,物理 AI、机器人、自动驾驶、模拟训练这些方向突然变热,不是没有原因的。因为如果 AI 真能学会现实世界的规律,那它就不只是一个会聊天的工具,而是一个能干活的机器。

你可以想象一下:

  • 家里有真正能收拾、做饭、整理的机器人
  • 工厂里的自动化不再只适合固定流程
  • 仓储、物流、医疗、农业这些高价值场景,也可能被重新做一遍

听起来有点科幻,但逻辑其实很简单。语言世界能被大模型吃透,那现实世界是不是也能?答案是,也许能,但难度比语言世界高得多。

真正的难点,不是模型,而是数据

世界模型最大的瓶颈,不是少一个更聪明的架构,而是数据从哪里来。

这就是文章里说的 data friction,也就是数据摩擦。

语言模型训练用的数据,很多本来就自然存在于互联网上。人类在网上写帖子、写文档、做问答,数据自己就生成了。模型只要把这些文本读一遍,就能学到大量规律。

但现实世界数据不一样。你要记录一个物体怎么被推动、怎么滚动、怎么和桌面发生接触,不只是看视频就够了,还得知道力、速度、材质、摩擦系数、角度、环境条件。

这个地方的难点主要有三个:

  1. 采集成本高:现实世界的数据不是自动长出来的,得靠设备、人员和流程去记录。
  2. 误差更大:传感器会有噪声,环境会变化,标注也很难统一。
  3. 迁移更难:仓库的任务和厨房的任务不是一回事,工厂和医院也不是一套物理规律。

所以说,越接近现实,数据越贵,越难收集,越难标准化。这就是世界模型最硬的门槛。

视频、模拟、遥操作,都不完美

现在大家常见的世界模型数据来源,大概就三种。

1. 视频

它最自然,也最接近互联网数据的思路,因为海量内容已经在那里了。但视频只能告诉你发生了什么,不能完整告诉你为什么会这样。你能看到杯子掉了,却看不到力的大小、桌面的材质和摩擦变化。

2. 模拟环境

它的好处是便宜,理论上可以无限生成数据。但一旦从模拟走到现实,问题就来了:真实世界的材质、光照、重量分布、装配误差都会把模型打回原形。

3. 机器人遥操作

这个最接近真实需求,效果也最好,但它慢、贵、难扩展。每个场景都不一样,仓库不是仓库,厨房不是厨房,医院也不是医院。

所以说,世界模型不是缺一个更大的训练集,而是缺一套真正能让它学会现实规律的数据体系。

为什么变化这件事这么难

很多自动化技术在标准化场景里都很好用,比如生产线、流水线、固定仓储流程。这些环境的优势就是稳定:零件按固定方式进入,机器人按固定动作执行,几乎不需要临场判断。

但真正需要自动化的地方,往往恰恰是最不稳定的地方。建筑工地不标准,仓储订单每天都变,餐饮场景需求无限多样,自动驾驶面对的是永远出其不意的路况。

现实世界不是一套规则就能覆盖的。它是连续的、混杂的、不断变化的。

也正因为这样,很多物理 AI 项目看起来很美,最后却会卡在落地阶段。不是方向错了,而是世界本身太复杂。

世界模型数据摩擦示意图

历史上大家其实试过很多次

这件事不是今天才有人想做。过去几十年,机器人研究者已经从不同路线碰过这个问题。

有人想把牛顿力学、材料属性和环境约束都显式写进去;有人像 Rodney Brooks 那样,干脆走反应式机器人路线,尽量不靠重型世界模型;也有人依赖模拟训练控制策略,希望模型能从虚拟环境迁移到真实硬件。

问题是,这些路线最后都撞上了同一堵墙:现实世界比任何抽象都更复杂、更容易出例外。符号规划会被边缘情况卡住,反应式机器人很重要,但很难自然扩展到长时序推理,模拟训练也会在真实场景里失真。

这其实就是 Rich Sutton 所说的 Bitter Lesson。简单讲,就是别太相信手工规则,应该让模型尽量从数据和计算里学出来。这个道理在语言、视觉、游戏里已经被验证得很彻底。世界模型,也是在把这条路往物理世界再推一次。

世界模型历史路线示意图

Bitter Lesson 到了物理世界,为什么又难了

问题来了。Bitter Lesson 在语言和围棋里很有效,是因为那里的学习信号很便宜、很丰富、很容易生成。你可以自博弈出无限盘棋,互联网也能提供海量文本。

但物理世界不一样。每一小时的机器人交互都是真钱、真设备、真时间。你不能像生成一局棋那样,随便生成十亿次真实厨房操作。

所以瓶颈就从“能不能表示世界”变成了“能不能拿到足够多的、足够丰富的经验”。这就又回到了数据摩擦。

更麻烦的是,物理数据不仅少,还特别碎。仓储操作告诉不了你手术怎么做,手术数据也帮不了你理解施工现场。越是这种垂直化的数据,越能形成壁垒,但越难做成通用世界模型。

世界模型长尾变化示意图

那到底意味着什么

我觉得,这篇文章最有价值的地方,不是喊一个特别大的愿景,而是把问题讲得很具体:世界模型值得做,但它不是一个纯算法问题,而是一个数据、工程和运营问题。

真正能赢的团队,不一定是架构最花哨的团队,而是最能拿到高质量数据、最愿意做脏活累活、最能把现实世界打通成训练闭环的团队。

说白了,这不是写一段更聪明的代码就能结束的事。你得和仓库、医院、工厂、建筑公司、机器人平台一起合作,慢慢把现实世界变成机器可以学习的东西。

这很难,也很慢。但如果有一天它真的跑通了,AI 的边界就会往前迈一大步。因为那时候,AI 不只是懂语言,它开始懂世界了。

原文链接

https://weightythoughts.com/p/world-models-can-change-everything?utm_source=tldrai