当前位置：首页 > 机器人开发 > 如何搭建一个GPU加速的分布式机器学习系统，遇到的问题和解决方法

如何搭建一个GPU加速的分布式机器学习系统，遇到的问题和解决方法

来源：阿里机器智能时间：2020/6/18

小叽导读：在解决实际问题的时候，很多人认为只要有机器学习算法就可以了，实际上要把一个算法落地还需要解决很多工程上的难题。本文将和大家分享如何从零开始搭建一个GPU加速的分布式机器学习系统，介绍在搭建过程中遇到的问题和解决方法。

一背景

在云计算环境下，虚拟机的负载均衡、自动伸缩、绿色节能以及宿主机升J等需求使得我们需要利用虚拟机(VM)迁移技术，尤其是虚拟机热迁移技术，对于down time（停机时间）要求比较G，停机时间越短，客户业务中断时间就越短，影响就越小。如果能够根据VM的历史工作负载预测其未来的工作负载趋势，就能够寻找到合适的时间窗口完成虚拟机热迁移的操作。

于是我们开始探索如何用机器学习算法预测ECS虚拟机的负载以及热迁移的停机时间，但是机器学习算法要在生产环境发挥作用，还需要很多配套系统去支持。为了能快速将现有算法在实际生产环境落地，并能利用GPU加速实现大规模计算，我们自己搭建了一个GPU加速的大规模分布式机器学习系统，取名小诸葛，作为ECS数据中台的异构机器学习算法加速引擎。搭载以上算法的小诸葛已经在生产环境上线，支撑阿里云全网规模的虚拟机的大规模热迁移预测。

二方案

那么一套完整大规模分布式系统机器学习系统需要哪些组成部分呢？

1 总体架构

阿里云全网如此大规模的虚拟机数量，要实现24小时之内完成预测，需要在端到端整个流程的每一个环节做优化。所以这必然是一个复杂的工程实现，为了G效的搭建这个平台，大量使用了现有阿里云上的产品服务来搭建。

整个平台包含：Web服务、MQ消息队列、Redis数据库、SLS/MaxComputer/HybridDB数据获取、OSS模型仓库的上传下载、GPU云服务器、DASK分布式框架、RAPIDS加速库。

1）架构

下图是小诸葛的总体架构图。

分类导航

== 资讯 ==

» 山东省“人工智能+教育”实施方案2
» 2025具身机器人行业未来展望报告
» 机器人和嵌入式边缘AI应用设计的计
» 人脑与机器人大脑对应关系：大小脑对
» 人形机器人运动控制:制约商业化落地
» 山东省机器人产业高质量发展行动计划
» 2025AI赋能教育：高考志愿填报
» 核电人形机器人的八点特性:高辐射耐
» 核电人形机器人专题报告[工业应用场
» 机器人的大脑在手眼脑协同中发挥怎么
» 机器人的“手眼脑”协同有哪些瓶颈和
» “手眼脑”协同对机器人上肢操作能力
» 机械臂+灵巧手当前能够完成哪些工作
» 具身智能——决定机器人泛化能力天
» 服务机器人兼容方面检测：电磁兼容与