在具身智能向能够适应和理解物理世界的 通用智能演进的过程中,世界模型正逐渐从一种 辅助性工具,演变为驱动智能体认知与决策的 核心引擎。其角色已超越了传统意义上对环境动 态的被动模拟,转而赋予智能体主动预测未来状态、规划行动序列、验证决策策略乃至理解底层 物理规律的关键能力。为了系统性地实现这一范 式转变,本文提出一套由四个层J构成的赋能框架(图1)。该框架以数据层为根基,整合来自真实与仿真环境的多模态感知数据,构建具身交互的认知基础;模型层作为核心,致力于构建兼具高生成保真度、动态可微性与深层语义理解能力的世界模型架构;应用层将世界模型的推演与规 划能力转化为机器人在开放、动态场景中的具体 感知、决策与控制功能;而评测层则贯穿始终, 通过建立系统的评估体系,确保技术的发展始终 锚定物理真实性、任务有效性与系统安全性三大准则,从而推动世界模型从技术概念走向稳健、 可靠的实际应用。
数据层作为具身智能世界模型构建的基础 支撑,负责提供多样化、高质量的训练样本,直 接决定了模型对环境动态、物理交互规律及多模 态融合能力的学习效果。该层采用分层递进的数 据金字塔结构,从底层到D层,数据量逐步递减 而具身特异性逐步增强,形成覆盖从广度到深度 的异质训练语料体系。这一层不仅包括原始数据 的采集,还通过增强、对齐和训练数据构建流水 线,系统性地提升数据质量,为模型层输出经过 清洗、增强、多模态对齐及格式化处理后的高质量时空序列数据,为后续模型训练和真实世界泛 化奠定坚实基础。
数据采集作为数据层的D一步,采用三层 递进的“数据金字塔”结构,由底层到D层逐步 从海量通用向高度具身特异性过渡,形成由广到 深、由浅入深的完整梯度。“数据金字塔”的Z 底层汇聚海量互联网原始数据,形成基础数据底 座。比如,Common Crawl³ 提供的万亿J多模态 网页内容,以及YouTube—8M 、Kinetics—700等 大规模视频数据集,其作用是为模型注入丰富 的视觉—动作模式和多样化的人类行为表征,使 模型先掌握广泛的环境统计规律与日常动作 分布。在此基础上,“数据金字塔”中层转向合成数据。中层可以通过MuJoCo 、Habitat—Sim、 SAPIEN⁴等高保真模拟器,生成带有明确物理 约束的交互序列,并作为对底层数据的补充, 扩充现实世界中难以采集的数据。这一层承接 底层的通用知识,针对真实世界中难以获取的 长尾场景、罕见事件和危险情境进行针对性补 充,从而显著扩展模型对边缘情况的覆盖和鲁 棒性。“数据金字塔”ZD层则聚焦真实具身交 互数据,直接桥接从模拟到现实的鸿沟,将底层 和中层的先验知识锚定到真实的物理世界。它 们收集来自多平台机器人的实际执行轨迹,其中 包括Bridge Dataset⁵ 、RoboTurk⁶以及Open X一 Embodiment⁷等数据集。这些数据集包括RGB— D视频、本体感受和准确动作标注。这些贴合任 务本身的数据可以提升模型在实际部署时的决 策精度与迁移能力。
“数据金字塔”的三层之间层层递进、相互 支撑:底层提供规模与多样性,中层注入物理真 实性与长尾覆盖,D层实现Z终的具身落地与精 度对齐,共同构筑起从统计先验到真实交互能力 的完整数据梯度。
在数据采集的基础上,数据增强模块进一步 提升数据集的多样性和模型的鲁棒性。通过空间 域的随机裁剪、翻转、颜色抖动,时间域的帧插 值/丢帧/序列反转以及噪声注入、视角变换、动 作扰动等操作,生成大量变体样本。这些变换不 仅显著扩大了有效数据量,还迫使模型学习对视 角变化、光照差异、传感器噪声和动作微小扰动 的不变性。
为了使不同来源的异构数据真正服务于统 一的世界模型,多模态对齐模块成为关键衔接环 节。它通过CLIP⁸等多模态基础模型实现视觉、语 言和动作模态间的深度语义一致性,利用对比学 习损失将同一事件的文本描述、视频帧序列和动 作轨迹拉近正样本、推远负样本,形成共享的多模 态嵌入空间。在具身智能场景中,这种跨模态一致 性显著提升了人机交互的自然度,使服务机器人 能够直接响应口头指令而无需繁琐的重新编程。
预处理与格式化模块将上述所有环节串联 为高效的端到端自动化流程。先,进行严格 清洗,去除模糊、分辨率低、被严重遮挡或有异 常动作的样本;接着,完成精细标注与分段,生 成动作边界、物体检测框和关键点;Z后,通过 token化或潜在表示压缩,将原始高维数据转化 为适合模型输入的时空序列,保证海量异构数据 的高效流入训练阶段,大幅降低人工干预成本, 同时为模型提供干净、结构化且语义丰富的高质 量输入。
通过“采集—增强—对齐—处理”的完整闭 环,数据层不仅提供了规模庞大的训练基础,而 且确保了数据的具身特异性、多样性和跨模态一 致性,为世界模型在真实机器人任务中的泛化能 力和物理理解能力打下了坚实的基础。
模型层的设计直接决定了具身智能代理对 真实世界的感知深度、理解精度与交互能力。它 通过将高维、多模态感知数据高效压缩为紧凑且 语义丰富的内部表征,为长期规划、不确定性建 模、跨场景泛化以及物理一致性推理奠定基础。 模型层为应用层提供根据不同应用场景输出的 决策支持信息,如未来的视频序列预测或状态轨 迹、端到端的动作序列分布或具体控制指令、密 集的内部奖励标量、合成的虚拟演示轨迹或边缘 场景数据。
现有具身智能世界模型主要分为两大互补 范式:基于视频生成的模型和基于三维几何的模 型。前者聚焦像素J时空序列预测,擅长视觉密 集型动态建模;后者强调几何结构精度与物理一 致性,更适用于准确交互与力学模拟场景。二者 共同推动模型从纯2D视觉预测向4D结构化世界 建模演进。
基于视频生成的模型通过学习图像序列的时空动态,在像素空间直接模拟世界演化,为视 觉主导的预测与规划提供支持。根据生成机制, 可再次细分为基于扩散的模型和基于自回归的 模型。
基于扩散的模型采用渐进去噪过程,结合 因果建模、动作条件或文本—视频对齐,生成视 觉逼真、时空连贯的长序列,能较好地刻画环境 随机性与多模态交互。在具身智能中,它们擅长 合成高质量机器人训练数据与虚拟演示轨迹, 适用于离线强化学习、模拟环境构建及边缘场景 扩充。尽管计算和显存开销较大,但其视觉保真 度、动态连贯性与大规模数据生成能力显著提升 了任务的泛化性能。
基于自回归的模型则逐帧或逐Token进行条 件预测,将序列建模为严格因果链,天然适合长 时序建模与逐步推理。它从海量视频中提取通用 世界先验,支持多模态条件下的未来状态预测。 在具身场景中,它们特别擅长高效在线规划、长 期预测与物理逐步推理,实现从视觉输入到多 步自主决策与零样本指令跟随的闭环。扩散模型 更注重单次生成质量,自回归模型则在计算扩展 性、长序列建模与因果一致性上占优,二者共同 完善了像素J视频世界模型。
然而,像素J表示在准确物理交互、碰撞检 测、多视角一致性及跨本体迁移方面存在局限。 为此,基于三维几何的世界模型应运而生。它通 过将环境显式或隐式编码为结构化的3D/4D几何 表示,使世界模型在预测未来状态时不仅依赖像 素外观变化,还能直接推理物体间的空间关系约 束、物理连续性和多视角一致性,实现更准确、 更具物理可信度的长期时空演化预测。
显式表示的模型将环境以三角网格、体素、 占用网格或密集点云等结构化几何形式直接编 码为世界模型的可操作输入,使得模型能够根 据空间信息约束进行因果推理。EmbodiedGen⁹1 和PointWorld⁰ 作为起点,聚焦于通过多阶段 生成流程创建可交互的3D资产。在此基础上, Dream2Flow' 等后续工作进一步深化,超越单纯 的几何生成,转而深入探索接触密集型物理模拟 与物体部件J的分解与重组。尽管受到分辨率、 存储与生成复杂度的限制,但其结构化、可编 辑、易集成物理引擎的特性使其在高精度交互任 务中不可替代。
隐式表示的模型将环境通过连续神经场函 数隐式参数化为世界模型的可微分几何表示, 实现高保真新视角合成、光照建模、动态4D扩 展,以及从稀疏观测到完整3D/4D世界的高质 量重构。典型方法包括NeRF¹2¹ 、3D Gaussian Splatting³ 及其动态变体、GaussianWorld 等 。 在具身智能中,它们特别适用于实时3D地图构 建、精细物体操纵、避障导航及大规模场景重 建,例如StreetSurf¹⁵ 和GaussCtrl¹⁶ 在城市场景中 的应用。尽管优化过程复杂,但其几何连续性、 多视角一致性、物体J可编辑性及对动态环境的 适应能力使其成为当前Z具灵活性与表现力的 几何建模范式。
在具身智能世界模型的整体框架中,应用层 扮演着将抽象模型能力真正转化为实际具身系 统解决方案的关键桥梁。它紧密衔接数据层、模 型层与真实环境交互,Z终使世界模型从实验室 走向可落地的机器人系统。同时,应用层向评测 层提供真实机器人任务的执行成功率、完成时 间、碰撞次数、泛化测试结果及安全违规记录等 核心运行数据。该层建立了从底层技术赋能到直 观任务落地的纵向驱动逻辑:技术赋能模块直接 揭示了世界模型如何系统性地辅助具身智能模型 的开发与训练,而落地任务模块则通过可感知的 典型场景验证了这些技术路径的有效性。
在技术赋能维度,世界模型可被用作四大 研发工具。先,可作为神经模拟器,接受当前 观测和动作输入,直接生成未来视频序列或状态轨迹。这一机制支持快速前向展开,常用于模型 基规划和蒙特卡洛树搜索,从而显著提升长时序 决策的效率与可行性。在此基础上,世界模型作 为直接策略,代表了更激进的决策范式。该范式 将世界模型直接作为策略网络,输入状态信息、 文本提示或多模态观测数据,即可通过端到端推 理直接输出动作序列或动作概率分布。代表性工 作如Cosmos Policy⁷及Motus18,通过世界模型潜 在空间的因果推理能力,在零样本或少样本场景 下展现出强大的泛化性能。其次,世界模型也可 作为奖励模型,利用世界模型的预测能力,将稀 疏的外部奖励转化为密集的内部奖励,支持强化 学习的高效训练,并极大地降低对人工标注的依 赖。Z后,作为数据引擎,世界模型闭环数据不 断合成与增强,形成持续学习的自举机制。它一 方面可用于离线强化学习数据扩充,另一方面可 支持长尾场景覆盖与数据多样性提升。该引擎有 效缓解真实机器人交互数据稀缺问题,为预训练 与微调持续注入高质量合成样本。
通过神经模拟器→直接策略→奖励模型→ 数据引擎的层层递进,技术赋能模块构建起从 “内心预演”到“即时行动”、从“奖励自监督” 到“数据自举”的完整工具链,为落地任务提供 了坚实的技术底座。
应用层的落地任务则是这些技术赋能的Z 终检验与体现,涵盖从基础到高J的多层次、多 场景应用需求,具体聚焦物体抓取、导航探索、 语言条件任务、多模态交互以及长期复杂任务五 大类。物体抓取任务先落地,利用世界模型预 测抓取后的物理交互,支持从桌面整理到工业零 件装配等场景。导航探索任务则进一步扩展到移 动机器人,聚焦实现动态避障与未知区域的自主 巡航。在此基础上,语言条件任务引入自然语言 驱动,机器人结合视觉理解与语言解析生成对 应动作序列,依赖世界模型的多模态推理能力, 实现零样本或少样本指令跟随。多模态交互任 务再向上跃升,整合视觉、语言、触觉甚至力反 馈,支持更自然的协作式物体传递或精细装配。 Z终,长期复杂任务代表Z高挑战,涉及多步序 列决策与长期规划。世界模型通过模拟长时序动 态演化与不确定性建模,确保任务持续性和鲁棒 性,避免累积误差导致失败。 这些任务由单步到多步、由单模态到多模态、 由短期到长期,形成完整的应用梯度。通过真实机 器人平台的部署验证,世界模型逐步缩小从模拟 到实物的迁移差距,展现出强大的跨场景泛化能 力,为具身智能走向社会化应用奠定坚实基础。
![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |