商超大模型机器人把具身智能大模型从“温馨的桌面实验室”拉进了“硬核的商超前线”。它不仅是一套测试集,更是一个揭示当前大模型在复杂拥挤空间中有多“笨拙”的照妖镜。
商超大模型机器人的核心设计围绕如何高效、逼真地在仿真器中复现一个极度拥挤且充满变数的零售商超环境。其实现聚焦三个关键模块:程序化商店与动态消耗模拟(环境构建)、海量资产与几何物理优化(底层加速)、长程任务与基准评测体系(验证闭环)。
关键模块一:程序化“暗店”环境生成
这个模块要解决的,是“如何源源不断地生成不重样的复杂超市”。
1、动态陈列与货架消耗 (Shelf Depletion) :真实的超市货架不是永远填满的,商品会被不断拿走。如图 3 所示,仿真器不仅能程序化地排列商品,还能模拟随时间推移商品被拿走后的“缺货(Depletion)”状态,这迫使机器人需要学会在散乱、非规则排列的物品中进行目标识别和抓取,极大提升了任务的随机性和真实感。
2、物理材质与光影多样性:如图 5 所示,管线内置了多种天花板、墙壁和地板的高质量纹理,结合不同的光照条件,确保生成的每一家“暗店”在视觉分布上都有所区别,从而强化模型视觉特征提取的泛化能力。
关键模块二:海量资产与几何物理优化
解决“成千上万个商品导致的物理碰撞计算爆炸”问题。
1、丰富的高保真 3D 资产:如图 4 所示,团队收集并清理了海量的日常杂货、食品包装等商品 3D 资产,这些物品在形状、尺寸和抓取难度上各不相同。
2、几何近似与物理加速 (Geometry Approximation) :这是保证该基准测试可用性的核心工程 Trick。
由于货架上的商品极其密集,使用原始的复杂三角网格计算碰撞会导致极高的延迟。如图 6 和图 7 所示,系统为每一个高精模型生成了高度简化的凸包几何体(Convex Hull / Simplified Geometries)。在渲染时,相机看到的是精美的原始网格;但在物理引擎计算碰撞时,使用的是这些极简模型。
3、极致的性能跨越:图 10 的仿真时间对比有力地证明了这一点。当场景中货架和商品数量激增时,使用了优化网格的场景(蓝色柱)其仿真速度比使用原始网格(红色柱)快了三倍以上,出色解决了大规模复杂拥挤环境仿真的算力瓶颈。
关键模块三:任务锚点规划与大模型“水土不服”验证
验证目前在桌面任务上大杀四方的通用大模型,在这个新基准里有多脆弱。
1、启发式锚点姿态 (Anchor Poses) :为了在拥挤的货架中自动化生成专家的示范轨迹,如图 8 所示,运动规划器(Motion Planner)利用商品附近的启发式锚点姿态,引导机械臂避开货架层板的遮挡,成功规划出在逼仄空间内的安全抓取和放置路径。
2、视觉输入与模型评测:如图 9 所示,系统会提取多视角的相机画面(包括头D、腕部等)输入给模型。实验结果令人警醒:目前许多号称能够泛化通用任务的 SOTA 具身大模型,在 RoboBenchMart 中面对货架上的密集商品时,由于缺乏对深度和高度空间几何的理解,极易发生碰撞或抓空,这揭示了现有模型在感知拥挤三维环境时的致命缺陷。
![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |