要闻

盲人摸象但真象无形，资本竞逐世界模型：热潮、分歧与未竟之路

2026-06-22 19:07:30

2026年世界模型热潮涌动，但定义与共识尚未达成。具身智能为其添热度，通用则是驱动力。当前业界对世界模型的学习内容和方法有分歧，且都面临数据难题。智源将世界模型分为四类，但距真正基座模型尚远。各方对世界模型发展时间判断差距大，目前该领域缺乏严谨评测框架，完整的世界模型究竟是什么样，没人真正见过。

每经记者｜可杨每经编辑｜魏官红

“什么是真实？你怎么定义真实？”这是电影《黑客帝国》里一句发人深省的追问。

2026年，关于世界模型的热潮，正在经历一个相似的时刻——定义与共识。

2026年，图灵奖得主杨立昆（Yann LeCun）与谢赛宁联合创立的AMI Labs，完成超10亿美元融资；李飞飞的World Labs同样拿到数亿美元融资；英伟达正式推出Cosmos平台；智源研究院在智源大会上发布悟界Physis v0.1⋯⋯

全球顶尖资本与顶尖大脑一拥而上，但有一个问题尚未等到答案：当我们谈论世界模型时，我们在谈论什么？

李飞飞与World Labs团队发表了一篇文章，指出当前业界谈论世界模型时存在严重的概念混淆：一个能生成绚丽但物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型、一个能准确模拟燃烧过程的物理引擎，都在使用这同一个名词。

近日，智源研究院院长王仲远坦言：“世界模型的定义到底是什么，大家还没有达成共识。”形成共识，路线方能收敛。在一个融资热度高达数十亿美元的赛道里，共识是一个必须回答的大前提。

“通用”是最根本的驱动力

李飞飞团队关于世界模型概念的文章，再度引发行业对于世界模型定义的热议。与此同时，在近期刚刚结束的智源大会上，智源研究院也表态，要为世界模型“正本清源”。

世界模型并不是一个新概念。它的出现可以追溯到1943年，心理学家最早提出了相关判断；2018年，这一概念扩展至智能世界，一篇题为《World Models》的论文引发了学术热潮。

如今这波世界模型热潮的起点，与Sora的诞生密切相关。

2024年春节，Sora横空出世，OpenAI彼时介绍Sora是“World Simulator”（世界模拟器），以此为标志，世界模型受到了更广泛的关注。

图片来源：AI

在Sora生成的视频里，液体在流动，光影在变化，模型根据视频数据摸索出了某些物理世界的规律，通过上一帧推测猜出下一帧，随着猜对的比例越来越高，它看似越来越懂得物理世界。

李飞飞的文章里用了一个词描述这类模型的本质：渲染器（Renderer）。她认为，渲染器优化的是视觉可信度，不是物理准确性。“它们的输出很美，但你无法信任它们去设计一栋建筑或训练一个机器人。”

具身智能的热潮则为世界模型添了一把猛火。

在很长一段时间里，VLA（视觉—语言—动作模型）被视为具身智能模型突破的核心路径，但因高度依赖成本高昂且产出极低的真实成功动作数据，并且无法直接利用海量缺乏动作标注的互联网视频，其面临严重的数据瓶颈。

世界模型提供了新的利用数据的方法，它的训练目标不是模仿正确动作，而是理解动作和结果之间的因果关系。在这个逻辑下，失败轨迹、无标注视频在世界模型的框架里都变成有价值的训练素材。

机器人尝试把一个杯子从桌上拿起来，手指位置偏了，杯子倒了。这段录像在VLA训练体系里可能是废品，但在世界模型的框架里，失败本身变成了信息。

智源研究院理事长黄铁军解释了为什么这一次的热潮和上一次不同：“现有VLA技术，在制造或抓取等特定场景完成任务是可以的。但我们希望具身智能是通用的，像人一样，在任何一个场景下遇到不同的问题都可以去解决，这样的模型现在还没有。”

通用，是这场热潮最深处的驱动力。

理想、视觉与闭环：世界模型路在何方？

热情一致，路线分歧，甚至彼此冲突。对于世界模型学什么、用什么方法学，当前业界有几条主流的路径。

杨立昆的JEPA（联合嵌入预测架构）是其中一条代表路径。它追求几何和动力学上的准确性，而非视觉可信度，认为视频里大量的像素信息是不可预测且无意义的，一段视频中可能包含大量的冗余信息，把模型容量浪费在学习这些统计噪声上，是资源浪费。

但问题在于，不生成可视化输出，很难直观判断模型究竟理解了什么，模型对物理世界的理解可能会“变形”。

另一条代表路径是由视频生成模型逐步迈向世界模型，它的核心主张是，如果一个模型能够生成足够准确的下一帧视频，它就已经学到了世界运行的某种规律。

清华大学计算机系教授朱军认为，和世界最相关的数据就是视频数据，它是最容易、最方便而且记录量最大的关于世界的数据。

但矛盾在于，视频生成的目标和动作生成的目标是不同的。视频生成越好，不代表动作预测越好，反之亦然。视觉可信度和物理准确性之间，有一道还没有被弥合的鸿沟。

王仲远举例说明：视频生成模型可以生成一群猪在天上和飞机一起飞，“因为视频生成模型采用大量科幻电影训练，目标本身就不是为了真实物理世界基座模型，只是通过大量视频学习能够捕捉到一定的世界知识”。

第三条路径认为，预测必须参与改变动作，闭环才有价值，这也暗含着“性价比”也是考量因素。

星源智联合创始人孙振国的逻辑是，如果世界模型只是作为旁路的训练约束，训练开销可能远超性能提升，“还不如探索VLA这种更高效的范式。”他希望达成世界模型参与改变动作本身：机器人即将执行一个动作时，先在内部模拟这个动作的后果，如果预测结果不理想，修正动作，再模拟，再修正，直到满意再执行，最终可以变成一个自进化的智能体。

数据是最诚实的“天花板”

以上所有路线都要面临同一个问题——数据。

视频数据和语言数据之间有一个无法靠堆量解决的不对称问题：语言本身是一种高度浓缩的信息载体，但在视频中，绝大部分像素是背景、与物理因果无关的细节。用视频数据训练世界模型，意味着模型需要在数百万像素里挑出真正有用的信息。

图片来源：每经媒资库

此外，物理理解不是靠观察就能学会的，它来自干预——真实世界的物理规律发生在人类和物体之间的交互中，一个孩子知道玻璃杯摔在地上会碎，不只是因为他看过，更是因为他可能失手摔过，感受过力的传导，听过声音，看过碎片的飞溅方向。

Skywork首席科学家刘扬描述了视觉信息的一个具体盲区：“我把一个杯子从桌子上拿起来，这个杯子有没有粘在桌子上导致我拿不起来？这个杯子里面的水到底是开水、温水还是冷水，视觉信息都没有办法去表达。”

智象未来创始人梅涛此前向《每日经济新闻》记者描述了他们正在走的路，即以少量真实操作数据为种子，用视频大模型进行数据增广，同样一段操作，生成在不同背景、不同光照、不同物体颜色下的大量变体，用于模型训练。

但同时也要注意，因为人类掌握的物理知识不够完备，仿真始终存在缺陷。

黄铁军认为，要改变采集数据的方式本身，而不是在现有方式上堆量。他表示，世界模型阶段需要在线的、实时的数据，让采集寄生在真实生产生活上。比如，工人正常作业时佩戴传感设备，数据自然产生，采集成本会大幅下降。

同时，当前数据处理方式是低效的，原因在于所有像素被平等处理。人类视觉系统高效，是因为有选择性注意力。“在晚上什么都看不见，突然有光一闪，人眼是可以捕捉到的，而且这时候触发的只是一个神经元，引发一系列响应，计算量和消耗的能量极低。”黄铁军表示。

王仲远画了一个时间尺度更长的框架。他说，真正催生跨时代世界模型的，可能要等到物理世界的互联网出现，就像数字世界的互联网积累了海量文字数据，催生了大语言模型，将来随着AI硬件越来越多、持续采集大量真实物理世界数据，才有可能形成同等规模的物理数据基础。

而这个基础，今天还不存在。

世界模型仍在经历“盲人摸象”

“现在仍处于世界模型的早期，所有世界模型领域夺冠的模型都还不是未来真正的世界模型。”智源当前对于世界模型做出了四个分类：以语言为中心的世界模型；以像素为中心的世界模型，即视频生成；以三维结构为中心的世界模型，包括3D重建；以视觉表征为轴心的世界模型。

但王仲远指出，四类模型距离真正面向物理世界的基座模型都有很大的距离。

世界模型离我们究竟还有多远？各方给出的时间判断差距之大，本身就说明了这个领域的真实状态。

银河通用创始人王鹤的预测最乐观，但他针对的是一个非常具体的目标，他认为WAM（World Action Model，世界行动模型）打开数据来源约束之后，具身智能里的核心操作任务将在两年内达到关键里程碑，但前提条件是：行业需要千万小时的高质量数据，以及百亿元级的资金投入，才能成为冲刺的入场券。

黄铁军把目标降到更加具体的层次：“未来两三年，能跟人日常工作相比的这样一个世界模型，是有可能出来的。”他解释了这句话的含义：做物理性工作的人的常识性能力，不是科学家的水平，只是在日常生活场景里做出合理物理判断和动作的系统。

王仲远的判断是至少还需要好几年，“很可能卡在一个地方三五年都没有突破，也有可能突然就突破了”。

他同时给出了一个具体的能力标准：一个3岁小朋友正在睡觉，厨房声音很大，家人只要挥一下手，大家就知道应该关门。这种基于当前物理状态、不需要语言的直觉式预测和决策，是基本能力门槛。

在连评测标准都没有共识的领域里，时间表本身就是一个没有统一参照系的数字。王仲远也谈到了这一点：“世界模型目前缺乏非常严谨的评测框架和体系。现在很多世界模型的评测都是以视频生成评测为重点，但不代表完整的未来世界模型作为基座模型的核心能力。”目前智源正在构建世界模型的评测基准，核心问题只有一个：能否对下一个物理状态做出正确预测。

黄铁军用“盲人摸象”来描述世界模型现在的状态：“现在各类视觉模型都是在往一个真正的世界模型靠近的过程，可能都抓住了其中某一个方面的特征，但又没有（抓住）全部，就跟盲人摸象一样，摸着耳朵说是大象，摸着腿也说是大象。”

不过，在盲人摸象的故事里，大象是确定存在的，只需要把各部分拼在一起。世界模型的问题则在于，完整的大象究竟是什么样子，目前没有人真正见过，也没有一套公认的方法验证你是否已经摸到了它。

朱军的一句话，或许道出了这个领域某种更深的困境：在复杂的、开放的场景里，很多时候我们并没有清晰或单一的目标，可能优化的是一个多维度的东西。

如何把适应物理世界这件事写成一个可优化的目标函数，本身就是一个没有被解决的根本问题。

在描述世界表象与理解世界本质之间，是世界模型仍在攀爬的距离。

封面图片来源：AI

如需转载请与《每日经济新闻》报社联系。
未经《每日经济新闻》报社授权，严禁转载或镜像，违者必究。

读者热线：4008890008

特别提醒：如果我们使用了您的图片，请作者与本站联系索取稿酬。如您不希望作品出现在本站，可联系我们要求撤下您的作品。

上一篇文章

Arcosa美股盘前涨近10%

返回每经网首页