AI发展 2026年05月08日

世界模型：AI 真正进入现实世界前的那道坎

by BLL

# AI Agent

好，我们先把这件事讲明白。

世界模型这个词听起来很大，其实它想解决的问题很朴素：让 AI 不只是会读文字，而是真的知道现实世界怎么运转。

今天的大语言模型，强在语言。它们读了海量文本，学会了怎么说话、怎么总结、怎么生成内容。但现实世界不是文本。现实世界里有重力、摩擦、碰撞、材质、延迟和各种意外。你让模型描述“杯子会掉下去”很容易，让它真的预测“这个杯子碰到桌面后会怎么滚”，那就完全是另一回事了。

所以说，世界模型的目标不是单纯识别图片，也不是只做路径规划，而是让机器在脑子里形成一个关于世界如何运作的内部表征。就是说，它要让 AI 不只是“看见”，而是“理解”。

为什么大家突然都在押注它

这两年，物理 AI、机器人、自动驾驶、模拟训练这些方向突然变热，不是没有原因的。因为如果 AI 真能学会现实世界的规律，那它就不只是一个会聊天的工具，而是一个能干活的机器。

你可以想象一下：

家里有真正能收拾、做饭、整理的机器人
工厂里的自动化不再只适合固定流程
仓储、物流、医疗、农业这些高价值场景，也可能被重新做一遍

听起来有点科幻，但逻辑其实很简单。语言世界能被大模型吃透，那现实世界是不是也能？答案是，也许能，但难度比语言世界高得多。

真正的难点，不是模型，而是数据

世界模型最大的瓶颈，不是少一个更聪明的架构，而是数据从哪里来。

这就是文章里说的 data friction，也就是数据摩擦。

语言模型训练用的数据，很多本来就自然存在于互联网上。人类在网上写帖子、写文档、做问答，数据自己就生成了。模型只要把这些文本读一遍，就能学到大量规律。

但现实世界数据不一样。你要记录一个物体怎么被推动、怎么滚动、怎么和桌面发生接触，不只是看视频就够了，还得知道力、速度、材质、摩擦系数、角度、环境条件。

这个地方的难点主要有三个：

采集成本高：现实世界的数据不是自动长出来的，得靠设备、人员和流程去记录。
误差更大：传感器会有噪声，环境会变化，标注也很难统一。
迁移更难：仓库的任务和厨房的任务不是一回事，工厂和医院也不是一套物理规律。

所以说，越接近现实，数据越贵，越难收集，越难标准化。这就是世界模型最硬的门槛。

视频、模拟、遥操作，都不完美

现在大家常见的世界模型数据来源，大概就三种。

1. 视频

它最自然，也最接近互联网数据的思路，因为海量内容已经在那里了。但视频只能告诉你发生了什么，不能完整告诉你为什么会这样。你能看到杯子掉了，却看不到力的大小、桌面的材质和摩擦变化。

2. 模拟环境

它的好处是便宜，理论上可以无限生成数据。但一旦从模拟走到现实，问题就来了：真实世界的材质、光照、重量分布、装配误差都会把模型打回原形。

3. 机器人遥操作

这个最接近真实需求，效果也最好，但它慢、贵、难扩展。每个场景都不一样，仓库不是仓库，厨房不是厨房，医院也不是医院。

所以说，世界模型不是缺一个更大的训练集，而是缺一套真正能让它学会现实规律的数据体系。

为什么变化这件事这么难

很多自动化技术在标准化场景里都很好用，比如生产线、流水线、固定仓储流程。这些环境的优势就是稳定：零件按固定方式进入，机器人按固定动作执行，几乎不需要临场判断。

但真正需要自动化的地方，往往恰恰是最不稳定的地方。建筑工地不标准，仓储订单每天都变，餐饮场景需求无限多样，自动驾驶面对的是永远出其不意的路况。

现实世界不是一套规则就能覆盖的。它是连续的、混杂的、不断变化的。

也正因为这样，很多物理 AI 项目看起来很美，最后却会卡在落地阶段。不是方向错了，而是世界本身太复杂。

世界模型数据摩擦示意图

历史上大家其实试过很多次

这件事不是今天才有人想做。过去几十年，机器人研究者已经从不同路线碰过这个问题。

有人想把牛顿力学、材料属性和环境约束都显式写进去；有人像 Rodney Brooks 那样，干脆走反应式机器人路线，尽量不靠重型世界模型；也有人依赖模拟训练控制策略，希望模型能从虚拟环境迁移到真实硬件。

问题是，这些路线最后都撞上了同一堵墙：现实世界比任何抽象都更复杂、更容易出例外。符号规划会被边缘情况卡住，反应式机器人很重要，但很难自然扩展到长时序推理，模拟训练也会在真实场景里失真。

这其实就是 Rich Sutton 所说的 Bitter Lesson。简单讲，就是别太相信手工规则，应该让模型尽量从数据和计算里学出来。这个道理在语言、视觉、游戏里已经被验证得很彻底。世界模型，也是在把这条路往物理世界再推一次。

世界模型历史路线示意图

Bitter Lesson 到了物理世界，为什么又难了

问题来了。Bitter Lesson 在语言和围棋里很有效，是因为那里的学习信号很便宜、很丰富、很容易生成。你可以自博弈出无限盘棋，互联网也能提供海量文本。

但物理世界不一样。每一小时的机器人交互都是真钱、真设备、真时间。你不能像生成一局棋那样，随便生成十亿次真实厨房操作。

所以瓶颈就从“能不能表示世界”变成了“能不能拿到足够多的、足够丰富的经验”。这就又回到了数据摩擦。

更麻烦的是，物理数据不仅少，还特别碎。仓储操作告诉不了你手术怎么做，手术数据也帮不了你理解施工现场。越是这种垂直化的数据，越能形成壁垒，但越难做成通用世界模型。

世界模型长尾变化示意图

那到底意味着什么

我觉得，这篇文章最有价值的地方，不是喊一个特别大的愿景，而是把问题讲得很具体：世界模型值得做，但它不是一个纯算法问题，而是一个数据、工程和运营问题。

真正能赢的团队，不一定是架构最花哨的团队，而是最能拿到高质量数据、最愿意做脏活累活、最能把现实世界打通成训练闭环的团队。

说白了，这不是写一段更聪明的代码就能结束的事。你得和仓库、医院、工厂、建筑公司、机器人平台一起合作，慢慢把现实世界变成机器可以学习的东西。

这很难，也很慢。但如果有一天它真的跑通了，AI 的边界就会往前迈一大步。因为那时候，AI 不只是懂语言，它开始懂世界了。

原文链接

https://weightythoughts.com/p/world-models-can-change-everything?utm_source=tldrai