创泽机器人
CHUANGZE ROBOT
当前位置:首页 > 新闻资讯 > 机器人开发 > 让大规模深度学习训练线性加速、性能无损,基于BMUF的Adam优化器并行化实践

让大规模深度学习训练线性加速、性能无损,基于BMUF的Adam优化器并行化实践

来源:AI科技大本营     编辑:创泽   时间:2020/5/29   主题:其他 [加盟]

作为一种自适应步长随机梯度优化器,自2014年提出以来,Adam 算法便以其卓越的性能风靡深度学习领域。为了提高应用于训练大规模任务时的效率,该算法通常与同步随机梯度(Synchronous Stochastic Gradient,SSG)技术相结合,采用数据并行(data parallel)的方式在多台机器上执行。在本文中,我们称这一方法为 Sync-Adam。

本质上来讲,Sync-Adam 通过将一个 minibatch 内样本的梯度计算分布到多台机器上达到加速目的,因此通信十分频繁,并且随着并行机器数目增多,minibatch 内样本的数量也成比例增加,这种情况下,通常会损害最终得到的模型的性能。为解决基于 SSG 的 Adam 算法可扩展性差的难题,我们把目光投向了逐区块模型更新滤波(Blockwise Model-Update Filtering, BMUF)框架。

BMUF 是一种通信高效的通用分布式优化算法框架,于2016年由微软亚洲研究院语音组的研究人员提出并发表。该算法在多个并行工作机之间周期性同步模型更新信息,并与历史更新信息相结合提升全局模型性能。与基于 SSG 的算法相比,BMUF 具有通信频率较低、训练几乎线性加速、模型性能基本无损的特点。这一算法已经在工业界广泛用于大规模深度学习模型的训练。

本文中,我们采用 BMUF 框架并行化 Adam 算法,并在微软大规模 OCR 和语音产品数据集上进行了测试。实验结果表明,在大规模 OCR 任务中,BMUF-Adam 在多达64机的并行训练中几乎实现了线性加速的同时,基本没有模型性能损失,在32机大词汇量连续语音识别任务中也获得了类似效果。

接下来我们探讨如何采用 BMUF 框架赋能 Adam 算法,在大规模深度学习任务上成就不凡。


在基于 BMUF 的训练框架下,假设我们总共有 N 个并行工作机,一个工作机可以是一块或多块 GPU 卡,也可以是一个计算节点。给定一个包含 Nτ 个 minibatch 的训练数据子集,首先我们将这些数据均匀分布到 N 个并行工作机,每台工作机获得 τ 个 minibatch。从一个共同的初始模型 θ_(t-τ)^((init)) 开始,N 个工作机独立更新各自的局部模型 τ 步,得到 {θ_(t,1),θ_(t,2),…,θ_(t,N)},对局部模型取平均得到 θ ̅_t。这一过程称之为数据块内并行优化(Intra-Block Parallel Optimization, IBPO)。与直接将 θ ̅_t 作为全局模型不同,BMUF 技术将历史更新信息与当前更新信息结合,得到全局模型:






基于深度学习和传统算法的人体姿态估计,技术细节都讲清楚了

人体姿态估计便是计算机视觉领域现有的热点问题,其主要任务是让机器自动地检测场景中的人“在哪里”和理解人在“干什么”

传统目标检测算法对比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目标检测算法优缺点对比及使用场合比较

基于深度学习目标检测模型优缺点对比

深度学习模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

如何更高效地压缩时序数据?基于深度强化学习的探索

大型商用时序数据压缩的特性,提出了一种新的算法,分享用深度强化学习进行数据压缩的研究探索

滴滴机器学习平台调度系统的演进与K8s二次开发

滴滴机器学习场景下的 k8s 落地实践与二次开发的技术实践与经验,包括平台稳定性、易用性、利用率、平台 k8s 版本升级与二次开发等内容

人工智能和机器学习之间的差异及其重要性

机器学习就是通过经验来寻找它学习的模式,而人工智能是利用经验来获取知识和技能,并将这些知识应用于新的环境

面向动态记忆和学习功能的神经电晶体可塑性研究

神经形态结构融合学习和记忆功能领域的研究主要集中在人工突触的可塑性方面,同时神经元膜的固有可塑性在神经形态信息处理的实现中也很重要

CVPOS自助收银的挑战以及商品识别算法工程落地方法和经验

针对结算收银场景中商品识别的难点,从商品识别落地中的模型选择、数据挑选与标注、前端和云端部署、模型改进等方面,进行了深入讲解

内容流量管理的关键技术:多任务保量优化算法实践

通过分析其中的关键问题,建立了新热内容曝光敏感模型,并最终给出一种曝光资源约束下的多目标优化保量框架与算法

百变应用场景下,优酷基于图执行引擎的算法服务框架筑造之路

优酷推荐业务,算法应用场景众多,需求灵活多变,需要一套通用业务框架,支持运行时的算法流程的装配,提升算法服务场景搭建的效率

饿了么推荐算法的演进及在线学习实践

饿了么算法专家刘金介绍推荐业务背景,包括推荐产品形态及算法优化目标;然后是算法的演进路线;最后重点介绍在线学习是如何在饿了么推荐领域实践的

拯救渣画质,马赛克图秒变高清,杜克大学提出AI新算法

杜克大学的一种 AI 算法PULSE可以将模糊、无法识别的人脸图像转换成计算机生成的图像,其细节比之前任何时候都更加精细、逼真
资料获取
机器人开发
== 最新资讯 ==
ChatGPT:又一个“人形机器人”主题
ChatGPT快速流行,重构 AI 商业
中国机器视觉产业方面的政策
中国机器视觉产业聚焦于中国东部沿海地区(
从CHAT-GPT到生成式AI:人工智能
工信部等十七部门印发《机器人+应用行动实
全球人工智能企业市值/估值 TOP20
创泽智能机器人集团股份有限公司第十一期上
谐波减速器和RV减速器比较
机器人减速器:谐波减速器和RV减速器
人形机器人技术难点 高精尖技术的综合
机器人大规模商用面临的痛点有四个方面
青岛市机器人产业概况:机器人企业多布局在
六大机器人产业集群的特点
机械臂-高度非线性强耦合的复杂系统
== 机器人推荐 ==
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人开发平台

机器人开发平台


机器人招商 Disinfection Robot 机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 机器人政策 教育机器人 迎宾机器人 机器人开发 独角兽 消毒机器人品牌 消毒机器人 合理用药 地图
版权所有 创泽智能机器人集团股份有限公司 中国运营中心:北京 清华科技园九号楼5层 中国生产中心:山东日照太原路71号
销售1:4006-935-088 销售2:4006-937-088 客服电话: 4008-128-728