目前的 VLA 模型(如 OpenVLA、RT-X 等)大多部署在传统的刚性串联机械臂(如 UR5)上。然而,基于学习的策略模型(Learning-based control)本质上存在不可预测性(Unpredictability)。一旦大模型在推理时产生幻觉或动作偏差,沉重且僵硬的刚性机械臂J易对周围的人类造成严重的物理伤害。
方法链路很清晰:输入端收集软体机器人(Continuum Soft Robot,名为 Embuddy)在不同视角的示范数据 → 算法适配层针对软体机器人的非线性动力学特征,将传统的动作空间映射到柔性控制空间 → 微调层分别对当前Z先进的 OpenVLA(采用 OFT 微调)和 (流匹配架构)进行训练 → 执行端在不需要额外复杂碰撞检测算法的情况下,直接依靠软体机器人本身的物理柔顺性(Physical Compliance),安全地执行诸如“给人喂棉花糖”这种JG风险的物理交互任务。
具体算法实现细节
Bridging Embodiment Gaps 的核心设计围绕如何让为刚性机器人打造的 VLA 模型,成功跨越“具身鸿沟(Embodiment Gap)”,适配到软体机器人上。其实现聚焦三个关键模块:具身硬件适配与数据流(硬件基础)、不同 VLA 架构的微调对比(算法核心)、极限人机交互与容错验证(落地场景)。
关键模块一:软体具身适配与多视角构建
这个模块要解决的,是“如何让大模型看懂并控制软体手臂”。
双平台对照基准:为了严谨对比,团队同时设置了传统的刚性机械臂 UR5(作为 Baseline)和软体机器人 Embuddy。
视角处理与对齐:如图 3 和图 4 所示,实验同样采用了第三人称视角(3rd-person)和腕部视角(Wrist camera)。需要注意的是,软体机器人的腕部在运动时形变极大,视野晃动剧烈,这极大考验了 VLA 模型对非平稳视觉输入的空间表征与泛化能力
关键模块二:OpenVLA 与的部署与性能对抗
解决“哪种 VLA 架构更适合控制软体机器人”的问题。
损失函数与收敛:如图 5 所示,团队完整记录了 OpenVLA-OFT(正交微调)和基于流匹配(Flow Matching)的 模型在软体机器人上的训练损失曲线。
实验证明,即便是在软体驱动这种全新的动作空间下,两者都能在少量专家数据支持下稳定收敛。成功率与控制表现:如图 2 所示的成功率对比图表,在抓取、放置等标准任务中, 凭借其连续的时间流生成机制,在处理软体机器人复杂的连续动作输出时,普遍展现出了比 OpenVLA 更高的任务成功率和更平滑的物理控制效果。
关键模块三:高风险人机交互与“柔性容错”验证
展示了软体机器人结合大模型后d一无二的落地应用价值。
常规桌面操作动态对比:图 6 展示了 UR5 在执行常规“把橙子放在盘子里”任务时的刚性运动分镜。图 7 则展示了软体机器人 Embuddy 在执行类似任务时的柔性运动轨迹。
虽然 VLA 能够驱动两者准确完成任务,但在真实家庭环境中,刚性轨迹一旦遭遇不可预见的人类闯入,往往是致命的。
极限人机交互测试(喂棉花糖):这是本文的安全高光时刻。如图 8 所示,团队让 VLA 模型控制软体机器人执行极高风险的“给人类嘴里喂棉花糖”任务。在执行过程中,由于人类头部的微小晃动,VLA 模型偶尔会产生位置预估偏差。
但关键在于,当软体手臂接触到人类面部时,它只是发生了极其安全的弹性形变,并未造成任何机械撞击伤害,并在形变后顺滑地调整姿态完成了投喂任务。这种“硬件J别的绝对兜底”,彻底释放了具身大模型在家庭看护与医疗辅助领域的潜力。
![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |