近日,AI领域知名学者、斯坦福大学教授李飞飞发表题为《从文字到世界:空间智能是人工智能的下一个前沿领域》(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)的专题文章,提出核心论断:空间智能将引领人工智能下一阶段的发展方向,成为推动技术突破的关键前沿领域。

李飞飞在文中深刻剖析了当前生成式人工智能的发展瓶颈。她指出,以大语言模型为代表的领先AI技术已开始改变我们获取和处理抽象知识的方式。然而,其本质上仍是在黑暗中工作的文字匠人——能言善辩却缺乏经验,知识渊博却缺乏根基。
空间智能将彻底改变人类与真实世界及虚拟世界的创造和互动方式,这将推动故事讲述、创造力、机器人技术、科学发现等领域的革命性进步,是人工智能的下一个前沿领域。
针对如何构建具备空间智能的人工智能模型这一关键问题,李飞飞提出了超越传统大语言模型的创新观点——“世界模型”。
世界模型作为一种新型生成模型,其核心特征在于能够理解、推理并交互于语义、物理、几何及动态维度上的复杂世界(包括真实与虚拟环境),这种能力远超现有模型的范畴。
李飞飞表示,该领域目前尚处于萌芽阶段,研究方法涵盖从抽象推理模型到视频生成系统等多个方向,并指出在这一新兴领域,确立明确的指导原则至关重要。李飞飞从三个基本能力维度定义了世界模型的理论框架:
一是生成一致性,世界模型具备生成感知、几何与物理特性高度一致的虚拟世界的能力。意味着模型不仅要能根据语义或感知指令生成无限多样的模拟世界,还需确保这些环境在几何结构、物理规律及动态行为上保持内在一致。研究界正积极探索这些世界应基于内在几何结构进行隐式还是显式表征。值得注意的是,通用世界模型的输出不仅需具备强大的潜在表征能力,还应支持生成可供多种应用场景使用的显式、可观测的世界状态。尤为关键的是,模型对当前状态的理解需与历史状态保持时空连续性,形成连贯的世界演化轨迹。
二是多模态融合,世界模型本质上应具备多模态处理能力。与生物智能类似,世界模型需能够处理图像、视频、深度信息、文本指令、手势和动作等多样化输入形式。在接收部分信息输入时,模型应能完整预测或生成对应的世界状态。这要求系统既能够以接近真实视觉的精度处理视觉信号,又能灵活解析语义指令,从而实现智能体与人类通过多样化渠道进行自然交互,并获得相应的多模态输出。
三是动态交互性,世界模型的核心特征在于其动态交互能力。当动作和/或目标作为输入时,世界模型必须能够输出世界的下一状态(无论采用隐式或显式表征)。在仅给定动作输入(含或不含目标状态)的情况下,世界模型生成的输出需要与世界的先前状态、预期目标状态(若存在)以及相关的语义含义、物理定律和动态行为保持严格一致。随着空间智能世界模型在推理、生成能力以及多模态处理上的持续进化,可以预见的是,在给定目标条件下,模型不仅能够预测世界的状态演进,还能基于新状态推导出相应的后续行动序列。
世界模型这一理论框架为构建真正具备空间智能的人工智能系统指出新方向,推动人工智能从处理抽象符号向理解物理世界的根本性转变,这一转变将促进具备主动感知和决策能力的人工智能的发展。
《从文字到世界:空间智能是人工智能的下一个前沿领域》
1950年,当计算机技术还停留在自动算术与简单逻辑运算阶段时,艾伦·图灵提出了一个至今仍在回响的问题:机器能思考吗?他以非凡的想象力预见到,智能或许有朝一日可以被构建而非天生。这一洞见后来开启了一场名为人工智能的科学探索。在我投身AI领域25年后,图灵的远见依然激励着我。但我们距离目标究竟有多近?答案并不简单。
当前,以大语言模型为代表的领先AI技术已开始改变我们获取和处理抽象知识的方式。然而,它们本质上仍是在黑暗中工作的文字匠人——能言善辩却缺乏经验,知识渊博却缺乏根基。空间智能将彻底改变我们与真实世界及虚拟世界的创造和互动方式,这将推动故事讲述、创造力、机器人技术、科学发现等领域的革命性进步。这正是人工智能的下一个前沿领域。
自进入该领域以来,对视觉与空间智能的追求始终是指引我的北极星。这正是我花费数年构建ImageNet的原因——这是首个大规模视觉学习与基准测试数据集,也是现代人工智能诞生的三大关键要素之一(另两项为神经网络算法与GPU等现代计算技术)。也正是基于这一追求,我的斯坦福实验室在过去十年致力于将计算机视觉与机器人学习相融合。一年多前,我与联合创始人共同创立World Labs,旨在首次全面实现这一可能性。
空间智能:人类认知的支架
AI的发展令人振奋。生成式AI模型已从实验室走向日常生活,成为数十亿人创作、生产与沟通的工具。它们展现出曾被认为不可能的能力,轻松生成连贯文本、海量代码、逼真图像甚至短视频。AI是否改变世界已不再是个问题——从任何合理定义来看,它已然改变世界。
然而,许多目标仍遥不可及。自主机器人的愿景虽引人入胜却仍停留在推测阶段,远未成为未来学家承诺的日常存在。在疾病治理、新材料发现与粒子物理等领域大规模加速研究的梦想尚未实现。真正理解并赋能人类创造者的AI——无论是学习分子化学的学生、构思空间的建筑师、构建世界的电影制作人,还是追求完全沉浸式虚拟体验的任何人——其承诺仍未兑现。
要理解这些能力为何难以实现,需要探究空间智能的演化历程及其如何塑造我们对世界的理解。视觉长期被视为人类智能的基石,但其力量源于更本质的要素。在动物具备筑巢、育雏、语言交流或建立文明的能力之前,简单的感知行为已悄然点燃通往智能的进化之旅。
这种从外界获取信息的能力——无论是一丝光线还是某种质感——在感知与生存之间架起了桥梁,并随着世代更迭变得愈发坚固复杂。层层神经元从此桥梁生长而出,形成能够解读世界并协调有机体与其环境互动的神经系统。因此,许多科学家推测,感知与行动成为驱动智能进化的核心循环,也是自然创造我们物种的基础——感知、学习、思考与行动的终极体现。
空间智能在定义我们与物理世界互动方式中扮演着基础角色。我们每日依赖它完成最寻常的行为:通过想象保险杠与路缘间逐渐缩小的间隙来停车,接住抛向房间对面的钥匙,在拥挤人行道上无碰撞穿行,或睡眼惺忪地盲倒咖啡。在更极端情境下,消防员在浓烟弥漫的坍塌建筑中穿行,瞬间判断结构稳定性与生存几率,通过手势、体态语言及无可替代的职业本能进行沟通。儿童在学会语言前的数月乃至数年中,通过与环境游戏互动来认知世界。这一切都凭直觉自动完成——这是机器尚未达到的流畅度。
空间智能同样是我们想象力与创造力的基石。故事讲述者在脑海中创造独特丰富的世界,并运用从远古洞穴壁画到现代电影乃至沉浸式电子游戏等多种视觉媒介将其呈现。无论儿童在沙滩堆砌城堡还是在电脑上玩《我的世界》,基于空间的想象力构成了真实或虚拟世界中互动体验的基础。在工业应用中,物体、场景及动态交互环境的模拟支撑着从工业设计到数字孪生乃至机器人训练等无数关键业务场景。
历史上充满以空间智能为核心的重大文明突破。在古希腊,埃拉托色尼将阴影转化为几何知识——通过在塞恩无影时刻测量亚历山大港的7度角——计算出地球周长。哈格里夫斯的“珍妮纺纱机”通过空间洞察革新纺织制造业:将多个纺锤并列于同一框架,使单名工人可同时纺多根线,生产效率提升八倍。沃森与克里克通过构建三维分子模型,操纵金属板与金属丝,直至碱基对的空间排列豁然开朗,最终发现DNA结构。在每个案例中,当科学家与发明家需要操纵物体、可视化结构并对物理空间进行推理时,空间智能推动了文明进步——这些都无法仅用文本来捕捉。
空间智能是我们认知能力构建的支架。无论我们被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理与规划,即使面对最抽象的议题。它对我们与他人或环境的互动方式至关重要——无论是言语还是肢体交流。虽然我们多数人日常未必能如埃拉托色尼般揭示新真理,但我们的思维方式本质相同——通过感官理解复杂世界,进而运用对物理空间运作机制的直觉认知。
遗憾的是,当今AI尚未具备此类思维方式。
过去几年确实取得显著进展。多模态大模型除文本数据外,还使用海量多媒体数据进行训练,引入了空间感知的基础概念。当今AI能分析图像、回答相关问题,并生成超逼真图像与短视频。通过传感器与触觉技术的突破,最先进的机器人已能在高度受限环境中操纵物体与工具。
但坦率而言,AI的空间能力远未达到人类水平。其局限性迅速显现:最先进的多模态大模型在估计距离、方向与尺寸,或通过新角度再生物体进行“心理旋转”时,表现很少优于随机猜测。它们无法在迷宫中导航、识别路径或预测基础物理现象。AI生成视频——虽处于起步阶段且视觉效果惊艳——常在数秒后失去连贯性。
当前顶尖AI在数据阅读、写作、研究与模式识别方面表现出色,但这些模型在表征或互动物理世界时存在根本局限。我们对世界的认知是整体性的——不仅关注所见内容,更关注万物间的空间关系、内在含义与重要意义。通过想象、推理、创造与互动(而非仅靠描述)来理解这一切,正是空间智能的力量所在。缺乏空间智能,AI就与其试图理解的物理现实脱节。它无法有效驾驶汽车、引导家庭与医院中的机器人,无法为学习娱乐开启全新的沉浸式互动体验,也无法加速材料科学与医学领域的发现。
哲学家维特根斯坦曾言:“我的语言界限即我的世界界限。”我虽非哲学家,但我深知对AI而言,世界不止于语言。空间智能代表着超越语言的前沿——这种能力连接想象、感知与行动,为机器真正增强人类生活开启可能,从医疗健康到创造力,从科学发现到日常辅助。
AI的下一个十年:构建真正具备空间智能的机器
我们该如何构建空间智能AI?通向具备埃拉托色尼般推理能力、工业设计师般精准工程能力、故事讲述者般想象力以及与急救人员般环境互动流畅度的模型之路在何方?
构建空间智能AI需要比大语言模型更具雄心的方案:世界模型。这是一种新型生成模型,其理解、推理、生成及互动语义化、物理化、几何化与动态化复杂世界(无论是虚拟还是真实)的能力,远超当今大语言模型范畴。该领域尚处于萌芽阶段,现有方法涵盖从抽象推理模型到视频生成系统。World Labs于2024年初基于此信念成立:基础方法仍在建立中,这将成为未来十年的决定性挑战。
在这一新兴领域,确立指导发展的原则至关重要。对于空间智能,我通过三项核心能力定义世界模型:
1. 生成性:世界模型能生成具备感知、几何与物理一致性的世界
解锁空间理解与推理的世界模型必须能生成自身的模拟世界。它们必须能根据语义或感知指令生成无限多样化的模拟世界,同时保持几何、物理与动态一致性——无论表征的是真实还是虚拟空间。研究界正积极探索这些世界应基于内在几何结构进行隐式还是显式表征。此外,除强大的潜在表征外,我认为通用世界模型的输出还必须支持生成显式、可观测的世界状态以满足不同用例需求。特别重要的是,其对当下的理解必须与过去——导致当前状态的先前世界状态——保持连贯联系。
2. 多模态:世界模型本质上是多模态的
如同动物与人类,世界模型应能处理多种形式的输入——在生成式AI领域称为“提示”。给定局部信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型应尽可能完整地预测或生成世界状态。这要求模型以媲美真实视觉的保真度处理视觉输入,同时同等流畅地解读语义指令。这使得智能体与人类都能通过多样输入与模型交流世界,并接收多样输出。
3. 交互性:世界模型能基于输入动作输出下一状态
最后,若动作和/或目标作为世界模型的提示部分,其输出必须包含世界的下一状态(无论隐式或显式表征)。当仅输入动作(无论是否含目标状态)时,世界模型应生成与世界先前状态、预期目标状态(若有)及其语义含义、物理定律与动态行为一致的输出。随着空间智能世界模型的推理与生成能力日益强大稳健,可以设想在给定目标时,世界模型本身不仅能预测世界下一状态,还能基于新状态预测后续动作。
这一挑战的规模超越AI以往面临的任何难题。语言作为人类认知的纯粹生成现象,而世界遵循着更复杂的规则。例如在地球上,引力支配运动,原子结构决定光如何产生颜色与亮度,无数物理定律约束着每次互动。即使最奇幻的创意世界,也由遵循定义自身的物理定律与动态行为的空间物体与智能体构成。协调所有这些要素——语义、几何、动态与物理——需要全新方法。表征世界的维度复杂度远超语言这类一维序列信号。要实现能提供人类所享通用能力的世界模型,需克服若干重大技术障碍。World Labs的研究团队正致力于在此方向取得根本性进展。
以下是我们当前研究课题示例:
新型通用训练任务函数:定义如大语言模型中下一词元预测般简洁优雅的通用任务函数,一直是世界模型研究的核心目标。其输入与输出空间的复杂性使此类函数本质上更难构建。尽管许多方面仍需探索,但该目标函数及相应表征必须反映几何与物理定律,遵循世界模型作为想象与现实具象化表征的本质特性。
大规模训练数据:训练世界模型所需的数据复杂度远超文本整理。值得欣喜的是:海量数据源已然存在。网络规模的图像与视频集合代表着丰富易得的训练材料——挑战在于开发能从这些二维图像或视频帧信号(如RGB)中提取更深层空间信息的算法。过去十年研究揭示了语言模型中数据量与模型规模间关联的缩放定律;世界模型的关键突破在于构建能以相当规模利用现有视觉数据的架构。此外,高质量合成数据及深度与触觉信息等其他模态的价值不容低估。它们在训练过程的关键步骤中补充网络规模数据。但未来发展取决于更先进的传感器系统、更稳健的信号提取算法及更强大的神经模拟方法。
新型模型架构与表征学习:世界模型研究必将推动模型架构与学习算法的进步,特别是在当前多模态大模型与视频扩散范式之外。这两种方法通常将数据标记化为一维或二维序列,这使得简单空间任务(如统计短视频中不同椅子的数量,或回忆一小时前房间的样貌)变得异常困难。替代架构可能提供解决方案,例如采用三维或四维感知的标记化、上下文理解与记忆机制。例如,我们在World Labs最近开发的实时生成式帧模型RTFM就体现了这种转变,该模型使用空间接地的帧作为空间记忆,在保持生成世界持久性的同时实现高效实时生成。
显然,在通过世界建模充分释放空间智能之前,我们仍面临艰巨挑战。这项研究不仅是理论探索,更是新型创意与生产力工具的核心引擎。World Labs的进展令人鼓舞:我们近期向部分用户展示了Marble的雏形,这是首个能通过多模态输入生成并维护一致3D环境的世界模型,可供用户和故事讲述者探索、互动并在创意流程中进一步构建。我们正努力尽快向公众开放!
Marble仅是我们构建真正空间智能世界模型的第一步。随着技术进步,研究人员、工程师、用户和商业领袖都开始认识到其巨大潜力。下一代世界模型将使机器空间智能达到全新水平——这一成就将解锁当今AI系统仍然严重缺失的关键能力。
运用世界模型为人类建设更美好世界
AI发展的动机至关重要。作为助力开启现代AI时代的科学家,我的动机始终明确:AI必须增强人类能力,而非取代人类。多年来,我一直致力于使AI的开发、部署和治理与人类需求保持一致。在当前技术乌托邦与末日论盛行的环境下,我仍持更务实的观点:AI由人开发、被人使用、受人治理。它必须始终尊重人的能动性与尊严。
其魔力在于扩展我们的能力,使我们更具创造力、连接更紧密、生产力更高、成就感更强。空间智能正是这一愿景的体现——赋能人类创造者、照护者、科学家和梦想家实现不可能之事。这一信念驱动我致力于将空间智能作为AI的下一重大前沿。
空间智能的应用涵盖不同时间线:创意工具正在涌现——World Labs的Marble已将此类能力交到创作者和故事讲述者手中;机器人技术代表着完善感知-行动循环的中期目标;最具变革性的科学应用虽需更长时间,但将对人类福祉产生深远影响。
在所有时间线中,以下几个领域因其重塑人类能力的潜力而突出:
创造力:赋能故事讲述与沉浸式体验
“创造力是智慧的乐趣。”这是我最崇拜的爱因斯坦的名言。远在文字出现之前,人类就开始讲述故事——将其绘于洞穴墙壁,代代相传,基于共同叙事构建整个文化。故事是我们理解世界、跨越时空连接彼此、探索人性意义的重要方式。如今,空间智能有望以尊重故事根本重要性的方式改变我们创造和体验叙事的方法,并将其影响从娱乐延伸至教育,从设计扩展至建造。
World Labs的Marble平台将为电影制作人、游戏设计师、建筑师及各类故事讲述者提供前所未有的空间能力与编辑可控性,使其能快速创建和迭代完全可探索的3D世界,无需传统3D设计软件的烦琐流程。创作行为依然保持其重要性与人性本质;AI工具只是放大和加速创作者的成就。这包括:
叙事体验的新维度:电影制作人与游戏设计师正使用Marble构建完整世界,突破预算与地域限制,探索传统制作流程中难以实现的各种场景与视角。随着不同媒体与娱乐形式界限模糊,我们正迎来融合艺术、模拟与游戏的新型互动体验——个性化世界让任何人(不仅是工作室)都能创造并沉浸于自己的故事中。随着将概念与故事板转化为完整体验的新方法出现,叙事将不再受限于单一媒介,创作者可自由构建跨平台的多维世界。
通过设计构建空间叙事:几乎所有制造物品或建造空间都需在实体化前进行虚拟3D设计。此过程高度迭代且耗时耗资。借助空间智能模型,建筑师可在投入数月设计前快速可视化结构,漫步于尚未存在的空间——这本质上是在讲述我们未来生活、工作与聚会的方式。工业与时尚设计师能瞬间将想象转化为形态,探索物品与人体及空间的互动方式。
全新的沉浸式互动体验:体验本身是人类创造意义的最深刻方式之一。在整个人类历史中,我们只存在一个单一的三维世界:我们共享的物理世界。近几十年来,通过游戏与早期虚拟现实,我们才开始窥见共享自创平行世界的意义。现在,空间智能与VR、扩展现实头显及沉浸式显示器等新形态结合,以前所未有的方式提升这些体验。我们正迈向这样的未来:步入完全实现的多维世界将如翻开书本般自然。空间智能使世界构建不仅对拥有专业团队的工作室触手可及,也对个人创作者、教育者及任何有愿景分享者开放。
机器人技术:具身智能的实践
从昆虫到人类,动物都依赖空间智能理解、导航并与环境互动。机器人也不例外。自该领域诞生以来,空间感知机器一直是梦想所在,包括我在斯坦福实验室与学生合作者的工作。这也正是我对使用World Labs正在构建的模型实现这一目标感到兴奋的原因。
通过世界模型扩展机器人学习:机器人学习的进展取决于可扩展的训练数据解决方案。鉴于机器人需要学习的理解、推理、规划与交互的状态空间极其庞大,许多研究者推测,要创建真正通用的机器人,需要结合互联网数据、合成模拟与真实世界人类演示数据。但与语言模型不同,当前机器人研究的训练数据仍然稀缺。世界模型将在此发挥决定性作用:随着感知保真度与计算效率提升,世界模型的输出能快速缩小模拟与现实的差距,从而帮助在无数状态、交互与环境的模拟中训练机器人。
伙伴与协作者:无论是协助科学家进行实验,还是帮助独居老人,作为人类协作者的机器人能扩展急需劳动力与提升生产力的工作队伍。但这要求机器人具备空间智能,能感知、推理、规划与行动,同时——至关重要——保持与人类目标行为的共情对齐。例如,实验室机器人可操作仪器让科学家专注于需要灵巧操作或推理的任务;家庭助手可帮助老人烹饪而不削弱其乐趣与自主性。真正空间智能的世界模型能预测下一状态甚至符合期望的行动,这对实现目标至关重要。
拓展具身形态:人形机器人在我们构建的世界中扮演特定角色,但创新的全部益处将来自更多样化的设计:例如输送药物的纳米机器人、穿越狭窄空间的软体机器人、为深海或外太空打造的机器。无论其形态如何,未来的空间智能模型必须整合机器人所处环境及其自身的具身感知与运动。开发这些机器人的关键挑战在于缺乏多样化具身形态的训练数据。世界模型将在模拟数据、训练环境与基准测试任务中发挥关键作用。
更长远视野:科学、医疗与教育
除创意与机器人应用外,空间智能的深远影响还将延伸至AI能增强人类能力、拯救生命与加速发现的领域。以下重点介绍三个具有变革潜力的应用领域:
科学研究:空间智能系统能模拟实验、并行检验假设,探索人类难以抵达的环境——从深海到遥远行星。该技术能革新气候科学与材料研究等领域的计算建模方式。通过将多维模拟与真实世界数据采集相结合,这些工具可降低计算门槛,扩展每个实验室的观测与理解范围。
医疗健康:空间智能将重塑从实验室到临床的方方面面。在斯坦福大学,我的学生与合作者多年与医院、养老机构及居家患者合作,这段经历让我确信空间智能在此领域的变革潜力。AI能通过多维分子相互作用建模加速药物研发,通过辅助放射科医生识别医学影像模式增强诊断能力,实现环境监测系统在保持治疗所需人际联系的前提下支持患者与照护者,更不用说机器人在多种场景中辅助医护人员与患者的巨大潜力。
教育领域:空间智能能实现沉浸式学习,使抽象复杂概念具象化,创建对我们大脑与身体学习机制至关重要的迭代体验。在AI时代,对学龄儿童与成人而言,更快更有效地学习与技能提升尤为重要。学生可探索细胞机制或多维视角体验历史事件;教师获得通过交互式环境个性化教学的工具;从外科医生到工程师等专业人士能在逼真模拟中安全练习复杂技能。
结语
过去十年,AI已成为全球现象与技术、经济乃至地缘政治的转折点。但作为研究者、教育者与创业者,最激励我的仍是图灵75年前问题背后的精神。我依然怀有与他同样的好奇,这正是空间智能挑战每日给予我能量的源泉。
历史上首次,我们即将建造与物理世界如此契合的机器,使其能成为我们应对重大挑战的真正伙伴。无论加速实验室中的疾病理解、革新故事讲述方式,还是在疾病、伤痛或年老导致的脆弱时刻提供支持,我们正处于能提升生命最重要维度的技术临界点。这是更深刻、更丰富、更赋能的生活愿景。
在近五亿年前自然于远古动物中释放空间智能的雏形后,我们幸运地成为可能很快赋予机器同样能力的技术世代,并有责任为全球人类福祉运用这些能力。若缺乏空间智能,我们对真正智能机器的梦想将永不完整。
致力于成为面向数字经济时代的战略科技智库、服务数据要素市场的专业咨询机构和汇聚数智安全技术的协同创新平台。
© 2025. All Rights Reserved. 沪ICP备19027819号
沪公网安备31011002006159号