当前位置：首页 > > 大模型机器人 > 大模型机器人的语音模型：RT-1，PaLM-E，RT2，π系列

大模型机器人的语音模型：RT-1，PaLM-E，RT2，π系列

来源：东吴证券编辑：创泽时间：2026/3/12 主题：其他 [加盟]

多模态、动作频率和泛化能力三条主线驱动技术衍变。

1)多模态： 22年4月Saycan发布，能够根据任务指令在动作库中输出Z优动作。22年12月RT1 发布，动作输出升J为由Transformer生成的动作Token 。23年3月PaLM-E 发布，较Saycan 在任务理解能力上显著升J。23年7月RT2发布，结合RT1和PaLM-E两者优势，将动作信息纳入模型输出空间。

2)动作频率： RT2 只能输出1-5Hz 的动作序列，为克服这一问题。24年10月π0发布，引入采用 FlowMatch 模型的动作专家，动作输出升J为50Hz 的动作轨迹。25年2月Helix发布，采用快慢脑结构，操纵频率进一步提高，输出200Hz动作序列。

3)泛化能力：由于现实世界极其复杂，不可能通过枚举穷尽所有场景，因此机器人需要具备“零样本泛化”能力。纵观模型发展史，各模型均强调多任务联合训练、预训练迁移能力以及跨平台迁移能力，核心目的就是提升零样本泛化表现。

RT-1: 端到端Transformer控制模型

RT-1实现了端到端的高效控制流程，在真实环境中的多任务执行中展现出极高的稳定性、泛化能力与工程适应性。实验表明：1)RT-1可在家庭厨房场景中执行超过700项具体任务，在3000多次真实测试中平均成功率达97%,典型操作如“移动物品” “打开抽屉”等成功率超过90%;2)模型具备较强的语义泛化能力，能够理解并正确响应指令的多种表达方式，例如“请递杯子”与“帮我拿那个水杯”均能正确执行；3)具备良好的任务扩展能力，新任务可通过行为克隆(Behavior Cloning) 快速适配，无需重训练整个模型，显著提升数据利用效率与部署灵活性。

RT-1仍受限于任务平台耦合、语义理解能力弱等问题，在通用性与认知层智能上尚未突破。1)模型在特定机器人平台和场景(如厨房)上训练，迁移到其他平台需重新收集大量数据，缺乏跨平台泛化能力； 2)仅使用图像和指令做输入，缺乏触觉、语音等其他模态的感知，对复杂任务(如操作失败后的反馈修正)处理力有限；3)缺乏高阶规划机制，执行策略主要依赖短期视觉反馈，难以完成逻辑顺序复杂的任务链；4)语言指令解析深度不够，面对多条件或因果逻辑类表达(如“先清理再放杯子”)的执行准确率仍不理想。

PaLM-E: 多模态具身语言模型

PaLM-E 在多个具身任务和视觉语言任务中展现出优秀的泛化能力和任务迁移性能。在桌面操作与移动操作环境中，PaLM-E 能生成多步语言计划并驱动真实机器人完成如“分类推积木”“从抽屉中取物”等任务，实现one-shot 和 zero-shot 泛化。此外，PaLM-E-562B 在OK-VQA 等通用视觉语言任务中取得L先成绩，并能进行多图推理、数学运算与时序感知问答等复杂推理。联合训练实验表明，通过融合多源数据， PaLM-E 在仅用少量具身数据时依然能维持高性能表现。

PaLM-E 在实际部署中仍面临一定挑战，主要包括模型规模、推理效率与训练门槛问题。1)模型体量庞大：如 PaLM-E-562B 包含540B 的语言模型与22B 的视觉编码器，推理速度与资源需求高，不适合部署在资源受限的机器人边缘设备上；2)训练成本高：需要预训练的大模型、图像编码器与高质量具身数据，训练门槛高，数据采集效率有限；3)低层控制依赖预设策略：高层生成的文本决策仍需靠RT-1等低层策略执行，系统整体仍未完全闭环自动学习；4)对三维感知场景效果有限：虽然OSRT 引入了神经三维结构表示，但在高度复杂、动态交互场景中的空间理解仍有提升空间。

RT2

架构&输出：采用经动作信息训练的VLA 模型，输出1-5Hz 的动作序列。 VLM 模型以PaLM-X 或 PaLM-E 为骨干，经过上述方法训练后成为端到端的VLA 模型。后者在应用中可直接分析经ViT处理的图像信息和语言信息，Z后视模型大小输出1-5Hz的动作序列。

具体流程：当听到“帮我从冰箱里拿一瓶水的指令时”,由VLM 模型分析图像和语言信息，直接理解任务要求，并输出如手臂旋转几度、电机如何运行的动作Token 序列。其相较于RT1, 主要结合了PaLM-E 推理和决策的优势，增强了对任务的理解能力。

π0/π0-Fast/π0.5: 引入动作专家，输出50Hz 动作轨迹

π0: 采用VLM+ 动作专家，输出50Hz动作轨迹。 π0由预训练的VLM (视觉模型SigLIP+LLM 模型 Gemma) 和使用Flowmatch 模型的动作专家组成。图像信息经ViT后和语言信息一同输入给VLM, 经其处理后输入给动作专家，后者结合当前状态q, 输出50Hz连续动作轨迹。

π0-Fast: 采用Fast算法+Transformer 动作专家，训练时间缩短5倍。 Fast算法先将动作轨迹用DCT (离散余弦变换)压缩，再由BPE (字节对编码)后生成离散动作Token, 进而可将运动数据放入动作专家模型中训练，实际应用中Transformer输出的动作Token 经Fast解码后转为动作轨迹。

π0.5:采用内置策略规划器的VLA。类似π0-Fast,将VLM 训练为VLA, 同时内嵌任务分J模块。

Helix

●架构&输出：采用端到端的快慢脑架构，输出200Hz 动作序列。Helix采用一个7B 参数量的预训练 VLM 作为慢脑，以及一个80M 参数量的Transformer模型作为快脑。两个模型解耦，在实际应用中以不同频率同时处理图像及语言讯息，慢脑负责思考高层目标，并以潜在向量指挥快脑，快脑负责实时执行和调整动作，并输出200Hz动作序列。同时由于潜在向量的存在，快慢脑可进行梯度回传，从而两者构成一个整体的端到端模型。

● 创新点：实现零样本多机器人协同以及拾取能力涌现。实验中，两台Figure 02使用Helix次实现了多机器人间的协作任务。同时， Figure发现，Helix涌现了拾取任意物品的能力。

● 优势：双系统架构符合人类思考方式，同时由于模型参数增多会拉慢推理速度，因此若想在兼具较强推理和运动输出能力，思考执行分层的快慢脑架构必不可少。

● 改进方向1-优化双系统架构的融合性：智平方的FiS-VLA 为双系统架构的融合性提出了创新。现有的双系统模型存在两个系统相对d立，无法充分共享“慢思考”系统预训练知识的问题，协同效率低，“快执行”系统缺乏对“慢思考”系统语义推理结果的充分利用。FiS-VLA 提出创新架构，将VLM末端2层Transformer 模块重构为“快执行”的执行模块，嵌入“慢思考”内部，形成统一的高效推理与控制模型。这种思路既保留了双系统架构的动作输出能力，又拥有融合型模型的贯通理解能力。

● 改进方向2-优化动作输出模块能力：FiS-VLA 采用了双系统感知协同训练策略，利用扩散建模增强了“快执行”系统的动作生成能力，更好适配Action Chunking的优势，动作输出稳定性提升。