创泽机器人
CHUANGZE ROBOT
当前位置:首页 > 新闻资讯 > 机器人开发 > 如何搭建一个GPU加速的分布式机器学习系统,遇到的问题和解决方法

如何搭建一个GPU加速的分布式机器学习系统,遇到的问题和解决方法

来源:阿里机器智能     编辑:创泽   时间:2020/6/18   主题:其他 [加盟]

小叽导读:在解决实际问题的时候,很多人认为只要有机器学习算法就可以了,实际上要把一个算法落地还需要解决很多工程上的难题。本文将和大家分享如何从零开始搭建一个GPU加速的分布式机器学习系统,介绍在搭建过程中遇到的问题和解决方法。

一  背景

在云计算环境下,虚拟机的负载均衡、自动伸缩、绿色节能以及宿主机升级等需求使得我们需要利用虚拟机(VM)迁移技术,尤其是虚拟机热迁移技术,对于down time(停机时间)要求比较高,停机时间越短,客户业务中断时间就越短,影响就越小。如果能够根据VM的历史工作负载预测其未来的工作负载趋势,就能够寻找到最合适的时间窗口完成虚拟机热迁移的操作。

于是我们开始探索如何用机器学习算法预测ECS虚拟机的负载以及热迁移的停机时间,但是机器学习算法要在生产环境发挥作用,还需要很多配套系统去支持。为了能快速将现有算法在实际生产环境落地,并能利用GPU加速实现大规模计算,我们自己搭建了一个GPU加速的大规模分布式机器学习系统,取名小诸葛,作为ECS数据中台的异构机器学习算法加速引擎。搭载以上算法的小诸葛已经在生产环境上线,支撑阿里云全网规模的虚拟机的大规模热迁移预测。

二  方案

那么一套完整大规模分布式系统机器学习系统需要哪些组成部分呢?

1  总体架构

阿里云全网如此大规模的虚拟机数量,要实现24小时之内完成预测,需要在端到端整个流程的每一个环节做优化。所以这必然是一个复杂的工程实现,为了高效的搭建这个平台,大量使用了现有阿里云上的产品服务来搭建。

整个平台包含:Web服务、MQ消息队列、Redis数据库、SLS/MaxComputer/HybridDB数据获取、OSS模型仓库的上传下载、GPU云服务器、DASK分布式框架、RAPIDS加速库。

1)架构

下图是小诸葛的总体架构图。






ICRA2020论文分享:基于视触融合感知的可形变物体抓取状态评估

人类可以通过视觉和触觉融合感知快速确定抓取可变形物体所需力的大小,以防止其发生滑动或过度形变,但这对于机器人来说仍然是一个具有挑战性的问题

一种基于层次强化学习的机械手鲁棒操作

在底层通过使用基于模型的操作单元,保证了手指与物体之间持续稳定的抓取;在中层使用强化学习进行规划,从而实现较长和复杂的手内操作流程

移动机器人Wang利用深度强化学习算法和视觉感知相结合的方法完成非结构环境下的移动

中科院沈阳自动化所的Wang利用深度强化学习算法和视觉感知相结合的方法来完成移动机器人在非结构环境下的移动操作

移动操作机器人Centauro通过融合自身携带的多传感器信息可实现自主移动和抓取操作

德国伯恩大学计算机学院研制的遥操作轮腿复合的移动操作机器人可通过远程操作平台完成各种复杂操作任务

机器人手腕的系列分享之一

假肢腕设计的有效基准能够做3自由度运动,即旋前/旋后、屈伸和桡侧/尺侧偏移,未受影响的腕关节,其最大活动范围通常在76度/85度

机器人手腕的系列分享之二

旋转器用于使终端设备沿前臂的纵向放出或滚动,而屈肌使终端设备弯曲或俯仰, OB棘轮式旋转手腕,被动腕部装置的锁定也可以通过使用不可反向驱动的机构来实现

机器人手腕的系列分享之二自由度手腕

2自由度腕部由一个与旋转器串联的屈肌单元组成,形成一个U型关节。其中一种设备是OBRoboWrist ,它可以同时锁住前旋和屈曲,当解锁时,还可以通过转动手腕上的项圈来调节运动产生摩擦阻力

机器人手腕的系列分享之三自由度手腕

3自由度人工手腕在某些方面优于人类的手腕,如运动范围或扭矩输出。尽管一些假肢在设计中加入了3自由度手腕,但串行3自由度手腕设备在机器人应用中更普遍

串行腕关节与并行腕关节优缺点对比分析

具有相同数量自由度的设备之间进行比较时,串行机构往往比并行机构更长,对于串行机构,运动范围和扭矩规格通常简单地由执行机构的选择和基本形状几何决定

假肢腕关节和机器人腕关节优缺点对比分析

假肢需要直接的人类互动来发挥功能,而机器人手腕则完全是主动的,假腕还包括外部可调节功能,如可调节摩擦或锁定;机器人手腕的任何调整通常都是在控制系统内完成的

柔软的灵巧手的设计、制备及驱动

由于软体材料的发展,灵巧手也开始柔软起来,如柏林工业大学研制的软体、欠驱动、柔性多指灵巧手、康奈尔大学研制的软体多指灵巧手、北京航空航天大学研制的软体多指灵巧手

服务机器人核心模块分析

环境感知技术:机器人感知环境及自身状态的窗口、运动控制技术:定位导航与运动协调控制、人机交互技术:人机有效沟通的桥梁
资料获取
机器人开发
== 最新资讯 ==
ChatGPT:又一个“人形机器人”主题
ChatGPT快速流行,重构 AI 商业
中国机器视觉产业方面的政策
中国机器视觉产业聚焦于中国东部沿海地区(
从CHAT-GPT到生成式AI:人工智能
工信部等十七部门印发《机器人+应用行动实
全球人工智能企业市值/估值 TOP20
创泽智能机器人集团股份有限公司第十一期上
谐波减速器和RV减速器比较
机器人减速器:谐波减速器和RV减速器
人形机器人技术难点 高精尖技术的综合
机器人大规模商用面临的痛点有四个方面
青岛市机器人产业概况:机器人企业多布局在
六大机器人产业集群的特点
机械臂-高度非线性强耦合的复杂系统
== 机器人推荐 ==
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人开发平台

机器人开发平台


机器人招商 Disinfection Robot 机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 机器人政策 教育机器人 迎宾机器人 机器人开发 独角兽 消毒机器人品牌 消毒机器人 合理用药 地图
版权所有 创泽智能机器人集团股份有限公司 中国运营中心:北京 清华科技园九号楼5层 中国生产中心:山东日照太原路71号
销售1:4006-935-088 销售2:4006-937-088 客服电话: 4008-128-728