创泽机器人
CHUANGZE ROBOT
当前位置:首页 > > 大模型机器人 > 大模型机器人的语音模型:RT-1,PaLM-E,RT2,π系列

大模型机器人的语音模型:RT-1,PaLM-E,RT2,π系列

来源:东吴证券     编辑:创泽   时间:2026/3/12   主题:其他 [加盟]

多模态、动作频率和泛化能力三条主线驱动技术衍变。

1)多模态: 22年4月Saycan发布,能够根据任务指令在动作库中输出Z优动作。22年12月RT1 发布, 动作输出升J为由Transformer生成的动作Token 。23年3月PaLM-E 发布,较Saycan 在任务理解能力上 显著升J。23年7月RT2发布,结合RT1和PaLM-E两者优势,将动作信息纳入模型输出空间。

2)动作频率: RT2 只能输出1-5Hz 的动作序列,为克服这一问题。24年10月π0发布,引入采用 FlowMatch 模型的动作专家,动作输出升J为50Hz 的动作轨迹。25年2月Helix发布,采用快慢脑结构, 操纵频率进一步提高,输出200Hz动作序列。

3)泛化能力: 由于现实世界极其复杂,不可能通过枚举穷尽所有场景,因此机器人需要具备“零样本 泛化”能力。纵观模型发展史,各模型均强调多任务联合训练、预训练迁移能力以及跨平台迁移能力, 核心目的就是提升零样本泛化表现。

RT-1: 端到端Transformer控制模型

RT-1实现了端到端的高效控制流程,在真实环境中的多任务执行中展现出极高的稳定性、泛化能力与工 程适应性。实验表明:1)RT-1可在家庭厨房场景中执行超过700项具体任务,在3000多次真实测试中 平均成功率达97%,典型操作如“移动物品” “打开抽屉”等成功率超过90%;2)模型具备较强的语义 泛化能力,能够理解并正确响应指令的多种表达方式,例如“请递杯子”与“帮我拿那个水杯”均能正 确执行;3)具备良好的任务扩展能力,新任务可通过行为克隆(Behavior Cloning) 快速适配,无需重训 练整个模型,显著提升数据利用效率与部署灵活性。

RT-1仍受限于任务平台耦合、语义理解能力弱等问题,在通用性与认知层智能上尚未突破。1)模型在 特定机器人平台和场景(如厨房)上训练,迁移到其他平台需重新收集大量数据,缺乏跨平台泛化能力; 2)仅使用图像和指令做输入,缺乏触觉、语音等其他模态的感知,对复杂任务(如操作失败后的反馈修 正)处理力有限;3)缺乏高阶规划机制,执行策略主要依赖短期视觉反馈,难以完成逻辑顺序复杂的任 务链;4)语言指令解析深度不够,面对多条件或因果逻辑类表达(如“先清理再放杯子”)的执行准确 率仍不理想。

PaLM-E: 多模态具身语言模型

PaLM-E 在多个具身任务和视觉语言任务中展现出优秀的泛化能力和任务迁移性能。在桌面操作与移动操作 环境中,PaLM-E 能生成多步语言计划并驱动真实机器人完成如“分类推积木”“从抽屉中取物”等任务, 实现one-shot 和 zero-shot 泛化。此外,PaLM-E-562B 在OK-VQA 等通用视觉语言任务中取得L先成绩,并 能进行多图推理、数学运算与时序感知问答等复杂推理。联合训练实验表明,通过融合多源数据, PaLM-E 在仅用少量具身数据时依然能维持高性能表现。

PaLM-E 在实际部署中仍面临一定挑战,主要包括模型规模、推理效率与训练门槛问题。1)模型体量庞大: 如 PaLM-E-562B 包含540B 的语言模型与22B 的视觉编码器,推理速度与资源需求高,不适合部署在资源受 限的机器人边缘设备上;2)训练成本高:需要预训练的大模型、图像编码器与高质量具身数据,训练门槛高, 数据采集效率有限;3)低层控制依赖预设策略:高层生成的文本决策仍需靠RT-1等低层策略执行,系统整体 仍未完全闭环自动学习;4)对三维感知场景效果有限:虽然OSRT 引入了神经三维结构表示,但在高度复杂、 动态交互场景中的空间理解仍有提升空间。

RT2

架构&输出:采用经动作信息训练的VLA 模型,输出1-5Hz 的动作序列。 VLM 模型以PaLM-X 或 PaLM-E 为骨干,经过上述方法训练后成为端到端的VLA 模型。后者在应用中可直接分析经ViT处 理的图像信息和语言信息,Z后视模型大小输出1-5Hz的动作序列。

具体流程:当听到“帮我从冰箱里拿一瓶水的指令时”,由VLM 模型分析图像和语言信息,直接理 解任务要求,并输出如手臂旋转几度、电机如何运行的动作Token 序列。其相较于RT1, 主要结合 了PaLM-E 推理和决策的优势,增强了对任务的理解能力。

π0/π0-Fast/π0.5: 引入动作专家,输出50Hz 动作轨迹

π0: 采 用VLM+ 动作专家,输出50Hz动作轨迹。 π0由预训练的VLM (视觉模型SigLIP+LLM 模型 Gemma) 和使用Flowmatch 模型的动作专家组成。图像信息经ViT后和语言信息一同输入给VLM, 经其处理后输入给动作专家,后者结合当前状态q, 输出50Hz连续动作轨迹。

π0-Fast: 采用Fast算法+Transformer 动作专家,训练时间缩短5倍。 Fast算法先将动作轨迹用DCT (离散余弦变换)压缩,再由BPE (字节对编码)后生成离散动作Token, 进而可将运动数据放入 动作专家模型中训练,实际应用中Transformer输出的动作Token 经Fast解码后转为动作轨迹。

π0.5:采用内置策略规划器的VLA。 类似π0-Fast,将VLM 训练为VLA, 同时内嵌任务分J模块。

Helix

●架构&输出:采用端到端的快慢脑架构,输出200Hz 动作序列。Helix采用一个7B 参数量的预训练 VLM 作为慢脑,以及一个80M 参数量的Transformer模型作为快脑。两个模型解耦,在实际应用中 以不同频率同时处理图像及语言讯息,慢脑负责思考高层目标,并以潜在向量指挥快脑,快脑负 责实时执行和调整动作,并输出200Hz动作序列。同时由于潜在向量的存在,快慢脑可进行梯度 回传,从而两者构成一个整体的端到端模型。

● 创新点:实现零样本多机器人协同以及拾取能力涌现。实验中,两台Figure 02使用Helix次实现 了多机器人间的协作任务。同时, Figure发现,Helix涌现了拾取任意物品的能力。

● 优势:双系统架构符合人类思考方式,同时由于模型参数增多会拉慢推理速度,因此若想在兼具 较强推理和运动输出能力,思考执行分层的快慢脑架构必不可少。

● 改进方向1-优化双系统架构的融合性:智平方的FiS-VLA 为双系统架构的融合性提出了创新。现 有的双系统模型存在两个系统相对d立,无法充分共享“慢思考”系统预训练知识的问题,协同 效率低,“快执行”系统缺乏对“慢思考”系统语义推理结果的充分利用。FiS-VLA 提出创新架 构,将VLM末端2层Transformer 模块重构为“快执行”的执行模块,嵌入“慢思考”内部,形成 统一的高效推理与控制模型。这种思路既保留了双系统架构的动作输出能力,又拥有融合型模型 的贯通理解能力。

● 改进方向2-优化动作输出模块能力:FiS-VLA 采用了双系统感知协同训练策略,利用扩散建模增 强了“快执行”系统的动作生成能力,更好适配Action Chunking的优势,动作输出稳定性提升。






初级大模型机器人撬动人形机器人产业0-1落地,机器人模型的核心迭代方向是将动作模态融入

多模态大模型的突破,机器人首次具备了“感知—理解—决策”的潜力,通过融合图像/视频与语言等模态信息构建起跨模态的统一表征体系,机器人模型的核心迭代方向,是将动作模态融入现有的视觉语言模型

Sim+to+Real,具身大模型的问题、现状与投资机会:本体厂,大厂和独角兽公司的大模型技术路径及进展

梳理了部分布局者的大模型及本体进展,对比本体厂、大厂和独角兽公司的大模型技术路径及进展;各公司对垂直行业的深度理解、丰富场景和海量数据,实现具身智能在垂直场景的率先落地

像人一样家庭大模型机器人的关键模块:异构数据协同训练(数据策略)、两阶段训练管线(训练策略)、分层推理架构(模型设计)

异构数据协同训练是如何让机器人从别人的经验中学习;两阶段训练为机器人打造通用大脑与专业小脑;真实家庭环境验证在“整理抽屉”、“收集衣物”、“洗碗”等任务中表现

商超大模型机器人聚焦三个关键模块:程序化商店与动态消耗模拟(环境构建)、海量资产与几何物理优化(底层加速)、长程任务与基准评测体系

商超大模型机器人在仿真器中复现一个极度拥挤且充满变数的零售商超环境。其实现聚焦三个关键模块:程序化商店与动态消耗模拟(环境构建)、海量资产与几何物理优化(底层加速)、长程任务与基准评测体系(验证闭环)

将 VLA大模型部署于机器人:硬件适配与数据流,架构的微调对比,人机交互与容错验证

软体具身适配与多视角构建,设置了传统的刚性机械臂和软体机器人;大模型的部署与性能对抗;模型控制软体机器人执行极高风险的“给人类嘴里喂棉花糖”任务

大模型机器人在农业场景中的应用:精准采摘,环境调控与水肥管理,病虫害智能监测与防控

大模型机器人通过准确识别-三维定位-轻柔采摘大幅提升采摘效率与品质;大模型机器人通过实时感知与动态决策,实现按需调控、准确供给;大模型机器人通过早期监测与准确防控,有效降低病虫害损失

大模型机器人的特点,以及优缺点

大模型机器人能理解复杂、口语化的指令,支持多轮对话和上下文记忆;实现跨模态信息整合;大模型机器人可将指令拆解为可执行步骤;具备在线学习能力,能不断优化行为策略
资料获取
大模型机器人
== 资讯 ==
大模型机器人的语音模型:RT-1,PaL
初级大模型机器人撬动人形机器人产业0-1
Sim+to+Real,具身大模型的问题
像人一样家庭大模型机器人的关键模块:异构
商超大模型机器人聚焦三个关键模块:程序化
将 VLA大模型部署于机器人:硬件适配与
大模型机器人在农业场景中的应用:精准采摘
2026年部署OpenClaw代理解决方
会走迷宫的机器人需要的材料:主控制器,地
机器人学会探测障碍:红外避障传感器的模块
机器人过丁字路口:并排安装4个地面灰度传
大模型机器人的特点,以及优缺点
OpenClaw:AI从聊天到行动-下一
全面的OpenClaw中文教程-零基础入
无锡《关于支持OpenClaw等开源社区
== 机器人推荐 ==
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人开发平台

机器人开发平台


机器人底盘 Disinfection Robot 消毒机器人  讲解机器人  迎宾机器人  移动机器人底盘  商用机器人  智能垃圾站  智能服务机器人  大屏机器人  雾化消毒机器人  展厅机器人  服务机器人底盘  具身智能教育机器人  智能配送机器人  导览机器人 
版权所有 创泽智能机器人集团股份有限公司 运营中心:北京 清华科技园九号楼5层 生产中心:山东日照太原路71号
销售1:4006-935-088 销售2:4006-937-088 客服电话: 4008-128-728