每日经济新闻
要闻

每经网首页 > 要闻 > 正文

盲人摸象但真象无形,资本竞逐世界模型:热潮、分歧与未竟之路

2026-06-22 19:07:30

2026年世界模型热潮涌动,但定义与共识尚未达成。具身智能为其添热度,通用则是驱动力。当前业界对世界模型的学习内容和方法有分歧,且都面临数据难题。智源将世界模型分为四类,但距真正基座模型尚远。各方对世界模型发展时间判断差距大,目前该领域缺乏严谨评测框架,完整的世界模型究竟是什么样,没人真正见过。

每经记者|可杨    每经编辑|魏官红    

“什么是真实?你怎么定义真实?”这是电影《黑客帝国》里一句发人深省的追问。

2026年,关于世界模型的热潮,正在经历一个相似的时刻——定义与共识。

2026年,图灵奖得主杨立昆(Yann LeCun)与谢赛宁联合创立的AMI Labs,完成超10亿美元融资;李飞飞的World Labs同样拿到数亿美元融资;英伟达正式推出Cosmos平台;智源研究院在智源大会上发布悟界Physis v0.1⋯⋯

全球顶尖资本与顶尖大脑一拥而上,但有一个问题尚未等到答案:当我们谈论世界模型时,我们在谈论什么?

李飞飞与World Labs团队发表了一篇文章,指出当前业界谈论世界模型时存在严重的概念混淆:一个能生成绚丽但物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型、一个能准确模拟燃烧过程的物理引擎,都在使用这同一个名词。

近日,智源研究院院长王仲远坦言:“世界模型的定义到底是什么,大家还没有达成共识。”形成共识,路线方能收敛。在一个融资热度高达数十亿美元的赛道里,共识是一个必须回答的大前提。

“通用”是最根本的驱动力

李飞飞团队关于世界模型概念的文章,再度引发行业对于世界模型定义的热议。与此同时,在近期刚刚结束的智源大会上,智源研究院也表态,要为世界模型“正本清源”。

世界模型并不是一个新概念。它的出现可以追溯到1943年,心理学家最早提出了相关判断;2018年,这一概念扩展至智能世界,一篇题为《World Models》的论文引发了学术热潮。

如今这波世界模型热潮的起点,与Sora的诞生密切相关。

2024年春节,Sora横空出世,OpenAI彼时介绍Sora是“World Simulator”(世界模拟器),以此为标志,世界模型受到了更广泛的关注。

图片来源:AI

在Sora生成的视频里,液体在流动,光影在变化,模型根据视频数据摸索出了某些物理世界的规律,通过上一帧推测猜出下一帧,随着猜对的比例越来越高,它看似越来越懂得物理世界。

李飞飞的文章里用了一个词描述这类模型的本质:渲染器(Renderer)。她认为,渲染器优化的是视觉可信度,不是物理准确性。“它们的输出很美,但你无法信任它们去设计一栋建筑或训练一个机器人。”

具身智能的热潮则为世界模型添了一把猛火。

在很长一段时间里,VLA(视觉—语言—动作模型)被视为具身智能模型突破的核心路径,但因高度依赖成本高昂且产出极低的真实成功动作数据,并且无法直接利用海量缺乏动作标注的互联网视频,其面临严重的数据瓶颈。

世界模型提供了新的利用数据的方法,它的训练目标不是模仿正确动作,而是理解动作和结果之间的因果关系。在这个逻辑下,失败轨迹、无标注视频在世界模型的框架里都变成有价值的训练素材。

机器人尝试把一个杯子从桌上拿起来,手指位置偏了,杯子倒了。这段录像在VLA训练体系里可能是废品,但在世界模型的框架里,失败本身变成了信息。

智源研究院理事长黄铁军解释了为什么这一次的热潮和上一次不同:“现有VLA技术,在制造或抓取等特定场景完成任务是可以的。但我们希望具身智能是通用的,像人一样,在任何一个场景下遇到不同的问题都可以去解决,这样的模型现在还没有。”

通用,是这场热潮最深处的驱动力。

理想、视觉与闭环:世界模型路在何方?

热情一致,路线分歧,甚至彼此冲突。对于世界模型学什么、用什么方法学,当前业界有几条主流的路径。

杨立昆的JEPA(联合嵌入预测架构)是其中一条代表路径。它追求几何和动力学上的准确性,而非视觉可信度,认为视频里大量的像素信息是不可预测且无意义的,一段视频中可能包含大量的冗余信息,把模型容量浪费在学习这些统计噪声上,是资源浪费。

但问题在于,不生成可视化输出,很难直观判断模型究竟理解了什么,模型对物理世界的理解可能会“变形”。

另一条代表路径是由视频生成模型逐步迈向世界模型,它的核心主张是,如果一个模型能够生成足够准确的下一帧视频,它就已经学到了世界运行的某种规律。

清华大学计算机系教授朱军认为,和世界最相关的数据就是视频数据,它是最容易、最方便而且记录量最大的关于世界的数据。

但矛盾在于,视频生成的目标和动作生成的目标是不同的。视频生成越好,不代表动作预测越好,反之亦然。视觉可信度和物理准确性之间,有一道还没有被弥合的鸿沟。

王仲远举例说明:视频生成模型可以生成一群猪在天上和飞机一起飞,“因为视频生成模型采用大量科幻电影训练,目标本身就不是为了真实物理世界基座模型,只是通过大量视频学习能够捕捉到一定的世界知识”。

第三条路径认为,预测必须参与改变动作,闭环才有价值,这也暗含着“性价比”也是考量因素。

星源智联合创始人孙振国的逻辑是,如果世界模型只是作为旁路的训练约束,训练开销可能远超性能提升,“还不如探索VLA这种更高效的范式。”他希望达成世界模型参与改变动作本身:机器人即将执行一个动作时,先在内部模拟这个动作的后果,如果预测结果不理想,修正动作,再模拟,再修正,直到满意再执行,最终可以变成一个自进化的智能体。

数据是最诚实的“天花板”

以上所有路线都要面临同一个问题——数据。

视频数据和语言数据之间有一个无法靠堆量解决的不对称问题:语言本身是一种高度浓缩的信息载体,但在视频中,绝大部分像素是背景、与物理因果无关的细节。用视频数据训练世界模型,意味着模型需要在数百万像素里挑出真正有用的信息。

图片来源:每经媒资库

此外,物理理解不是靠观察就能学会的,它来自干预——真实世界的物理规律发生在人类和物体之间的交互中,一个孩子知道玻璃杯摔在地上会碎,不只是因为他看过,更是因为他可能失手摔过,感受过力的传导,听过声音,看过碎片的飞溅方向。

Skywork首席科学家刘扬描述了视觉信息的一个具体盲区:“我把一个杯子从桌子上拿起来,这个杯子有没有粘在桌子上导致我拿不起来?这个杯子里面的水到底是开水、温水还是冷水,视觉信息都没有办法去表达。”

智象未来创始人梅涛此前向《每日经济新闻》记者描述了他们正在走的路,即以少量真实操作数据为种子,用视频大模型进行数据增广,同样一段操作,生成在不同背景、不同光照、不同物体颜色下的大量变体,用于模型训练。

但同时也要注意,因为人类掌握的物理知识不够完备,仿真始终存在缺陷。

黄铁军认为,要改变采集数据的方式本身,而不是在现有方式上堆量。他表示,世界模型阶段需要在线的、实时的数据,让采集寄生在真实生产生活上。比如,工人正常作业时佩戴传感设备,数据自然产生,采集成本会大幅下降。

同时,当前数据处理方式是低效的,原因在于所有像素被平等处理。人类视觉系统高效,是因为有选择性注意力。“在晚上什么都看不见,突然有光一闪,人眼是可以捕捉到的,而且这时候触发的只是一个神经元,引发一系列响应,计算量和消耗的能量极低。”黄铁军表示。

王仲远画了一个时间尺度更长的框架。他说,真正催生跨时代世界模型的,可能要等到物理世界的互联网出现,就像数字世界的互联网积累了海量文字数据,催生了大语言模型,将来随着AI硬件越来越多、持续采集大量真实物理世界数据,才有可能形成同等规模的物理数据基础。

而这个基础,今天还不存在。

世界模型仍在经历“盲人摸象”

“现在仍处于世界模型的早期,所有世界模型领域夺冠的模型都还不是未来真正的世界模型。”智源当前对于世界模型做出了四个分类:以语言为中心的世界模型;以像素为中心的世界模型,即视频生成;以三维结构为中心的世界模型,包括3D重建;以视觉表征为轴心的世界模型。

但王仲远指出,四类模型距离真正面向物理世界的基座模型都有很大的距离。

世界模型离我们究竟还有多远?各方给出的时间判断差距之大,本身就说明了这个领域的真实状态。

银河通用创始人王鹤的预测最乐观,但他针对的是一个非常具体的目标,他认为WAM(World Action Model,世界行动模型)打开数据来源约束之后,具身智能里的核心操作任务将在两年内达到关键里程碑,但前提条件是:行业需要千万小时的高质量数据,以及百亿元级的资金投入,才能成为冲刺的入场券。

黄铁军把目标降到更加具体的层次:“未来两三年,能跟人日常工作相比的这样一个世界模型,是有可能出来的。”他解释了这句话的含义:做物理性工作的人的常识性能力,不是科学家的水平,只是在日常生活场景里做出合理物理判断和动作的系统。

王仲远的判断是至少还需要好几年,“很可能卡在一个地方三五年都没有突破,也有可能突然就突破了”。

他同时给出了一个具体的能力标准:一个3岁小朋友正在睡觉,厨房声音很大,家人只要挥一下手,大家就知道应该关门。这种基于当前物理状态、不需要语言的直觉式预测和决策,是基本能力门槛。

在连评测标准都没有共识的领域里,时间表本身就是一个没有统一参照系的数字。王仲远也谈到了这一点:“世界模型目前缺乏非常严谨的评测框架和体系。现在很多世界模型的评测都是以视频生成评测为重点,但不代表完整的未来世界模型作为基座模型的核心能力。”目前智源正在构建世界模型的评测基准,核心问题只有一个:能否对下一个物理状态做出正确预测。

黄铁军用“盲人摸象”来描述世界模型现在的状态:“现在各类视觉模型都是在往一个真正的世界模型靠近的过程,可能都抓住了其中某一个方面的特征,但又没有(抓住)全部,就跟盲人摸象一样,摸着耳朵说是大象,摸着腿也说是大象。”

不过,在盲人摸象的故事里,大象是确定存在的,只需要把各部分拼在一起。世界模型的问题则在于,完整的大象究竟是什么样子,目前没有人真正见过,也没有一套公认的方法验证你是否已经摸到了它。

朱军的一句话,或许道出了这个领域某种更深的困境:在复杂的、开放的场景里,很多时候我们并没有清晰或单一的目标,可能优化的是一个多维度的东西。

如何把适应物理世界这件事写成一个可优化的目标函数,本身就是一个没有被解决的根本问题。

在描述世界表象与理解世界本质之间,是世界模型仍在攀爬的距离。

封面图片来源:AI

如需转载请与《每日经济新闻》报社联系。
未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。

读者热线:4008890008

特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。

欢迎关注每日经济新闻APP

每经经济新闻官方APP

1

0