创泽机器人
CHUANGZE ROBOT
当前位置:首页 > 新闻资讯 > 机器人知识 > 深度解析大规模参数语言模型Megatron-BERT

深度解析大规模参数语言模型Megatron-BERT

来源:智东西     编辑:创泽   时间:2020/6/18   主题:其他 [加盟]
大家好,我是NVIDIA解决方案架构师王闪闪。今天主要和大家分享两个部分的内容:

1.  BERT模型深度解析

2.  大规模参数的语言模型Megatron-BERT

我们今天主要是温故知新我先带大家复习一下BERT模型的整体架构,内容不会特别偏数学,主要把BERT一些要点给大家说清楚,包括BERT的输入/输出以及具体它是怎么工作的,然后介绍NVIDIA基于BERT开发出的一系列好的模型。

首先介绍一下自然语言处理常见的应用方向,第一类是序列标注,比如命名实体的识别、语义标注、词性标注,循环智能也是用了序列标注。第二类是分类任务,如文本分类和情感分析,这个方向目前在量化金融领域,尤其是对冲基金上应用性很强,尤其是情感分析。我记得3、4年前,有一条新闻说斯坦福大学的一个硕士生,暑期在他的宿舍里用几块GPU卡,自己搭建了一个小的超级计算机,他把Twitter上的信息全部录下来,每天更新。他使用了BERT进行情感分析,把每天每个人的信息分成三类:positive积极、neutral中性、negative消极。他把三类情感的量化信息和当天纳斯达克股票的升跌情况汇总,进行了统计分析,发现如果Twitter上的信息大部分都是积极的,那么股票就有很大的概率会上涨。我们现在把这类数据叫做情感分析因子,它在股票分析上是一个特别重要的推进方向,能让模型越发准确。第三类NLP应用方向就是对句子关系的判断,如自然语言的推理、问答系统,还有文本语义相似性的判断。最后一类,是生成式任务,如机器翻译、文本摘要,还有创造型的任务比如机器写诗、造句等。

BERT模型深度解析

现在我们进入正题:对BERT的讲解。要了解BERT,首先我们要说一下Transformer,因为BERT最主要就是基于Transformer和注意力机制,这两点也是BERT能从GPT、RNN、LSTM等一系列架构中能脱颖而出的很大原因。Attention,专业的叫法是Attention Mechanism,Attention是一个Encoder+Decoder的模型机制。Encoder-Decoder模型是在深度学习中比较常见的模型结构:在计算机视觉中这个模型的应用是CNN+RNN的编辑码框架;在神经网络机器翻译的应用是sequence to sequence模型,也就是seq2seq。而编码(Encoder)就是将序列编码成一个固定长度的向量,解码(Decoder)就是将之前生成的向量再还原成序列。

那么问题来了,为什么要在Encoder-Decoder模型机制中引入Attention呢?因为 Encoder-Decoder模型有两个比较显著的弊端:

一是Encoder会把序列信息压缩成一个固定长度的向量,那么在Encoder的输出中,我们暂且把它叫做语义编码c,c就有可能无法完全地表示出全部序列的信息,尤其是当信息特别长时。

二是先输入到网络中的信息会被后输入的信息覆盖掉,输入的信息越长,对先前输入信息的遗忘程度就越大。因为这两个弊端,Decoder在解码的一开始就没有获得一个相对完整的信息,也就是语义编码c没有一个相对完整的信息输入,那么它解码的效果自然就不好。有的同学可能会说想要解决RNN记忆力差的问题,可以考虑用LSTM。我们的确可以考虑LSTM,但LSTM对超长距离的信息记忆,效果也不是很好。

我们再来看看Attention为什么能够解决这个问题。Attention,顾名思义是注意力。它是模仿人类的注意力,人类在处理一个问题时会把注意力放到那个特别重要的地方,比如我们在短时间内去看一张照片,第一眼落到照片上的位置可能是某个建筑物或者是某个人,这取决于我们不同的目的和兴趣等。我们不会在短时间之内记清楚甚至是看清楚照片上的全部细节,但是我们会将注意力聚焦在某个特定的细节上并记住它。Attention模型最终输出结果也是能够达到这么一个效果。 

Attention的机制最早也是应用在计算机视觉上面,然后是在自然语言处理上面发扬光大。由于2018年在GPT模型上的效果非常显著,所以Attention和 Transformer才会成为大家比较关注的焦点。之所以Attention的能力在NLP领域得到了彻底释放,是因为它解决了RNN不能并行计算的弊端,Attention使其每一步的计算不依赖于上一步的计算,达到和CNN一样的并行处理效果。并且由于Attention只关注部分的信息,所以它的参数较少,速度就会快。其次RNN记忆能力较差,所以大家一开始想到的解决方式都是用LSTM和GRU(Gated Recurrent Unit)来解决长距离信息记忆的问题,但是都没有起到很好的效果。Attention由于只关注长文本中的一个小部分,可以准确地识别出关键信息,所以取得了特别不错的效果。

下面我们来说一下Attention是怎么实现的聚焦。主要是因为它是采用了双向的RNN,能够同时处理每个单词前后的信息。在Decoder中,它首先计算每一个Encoder在编码隐藏层的状态,然后会和Decoder隐藏层状态比较,做出相关程度的评定。得到的权值会通过softmax归一化得到使用的权重,也就是我们前面所说的编码向量c。然后对Encoder中对应的不同状态的权重进行加权求和,有了编码c之后,我们就可以先计算Decoder隐藏层的状态,然后再计算Decoder的输出。这就是一个比较完整的在BERT当中运用Attention以及Encoder-Decoder模型的使用案例。Attention根据计算区域、权值的计算方式等会有很多不同变种。

不止是在NLP领域,在其他很多领域中,Transformer的模型由于很好用都是大家首选的,主要的一个运用机制就是Attention。我们之后会说到的Transformer模型会用到 Multi-head Attention和Self-Attention。首先说一下Self-Attention,Self-Attention是将原文中每个词和该句子中所有单词之间进行注意力的计算,主要是为了寻找原文内部的关系。对应到阅读理解任务,这个模型就可以判定一篇文章中的两段话是不是同一个意思。Multi-head Attention,则是对一段原文使用多次的注意力,每次会关注到原文的不同部分,相当于多次地在单层中使用Attention,然后把结果给拼接起来。 







自然语言处理技术五大技术进展和四大应用与产品

自然语言处理技术的应用和研究领域发生了许多有意义的标志性事件,技术进展方面主要体现在预训练语言模型、跨语言 NLP/无监督机器翻译、知识图谱发展 + 对话技术融合、智能人机交互、平台厂商整合AI产品线

自然语言处理技术发展趋势进一步推动人工智能从感知智能向认知智能的演进

下一个十年,智能人机交互、多模态融合、结合领域需求的 NLP 解决方案建设、知识图谱结合落地场景等将会有突破性变化

中国移动室内定位白皮书

中国移动联合产业合作伙伴发布《室内定位白皮书》,对室内定位产业发展现状及面临的挑战,深入分析了垂直行业的室内定位需求,并详细阐述了实现室内定位的技术原理, 及室内定位评测体系

传感器面临时代新机遇,未来发展将呈现哪些趋势

机器人、无人机、自动驾驶汽车等加快落地,智慧城市深入建设,更是为传感器产业带来了难以估量的庞大机遇

仿人操作机器人Cosero配备7自由度机械臂装有Kinect相机实现对目标环境的3D感知

Cosero是德国波恩大学的Sven Behnke团队根据家庭环境中的日常操作任务而研制的一款仿人操作机器人基于深度学习方法的目标姿态估计和RGB-D SLAM等感知测量

移动式操作机器人平台Personal Robot 2可模拟开门、打台球和画画

机器人的学习分为三个部分的轨迹预测包括示教者的手部运动轨迹、示教者的身体移动轨迹以及被操作物体的运动轨迹

Jupiter由四轮独立转向的底盘和UR5机械臂组成通过SSD网络检测目标物体

通过2D激光雷达信息采用Hector SLAM实现机器人对地图的感知和自主导航规划,通过顶部的RGB-D相机采集目标物体深度和RGB图像信息

野外自主农作物探测机器人Robotanist使用扩展卡尔曼滤波器(EKF)方法融合MTI等传感器信息

驱动系统由4个200W无刷直流电机构成,通过50:1的空心轴减速机可以最高达2m/s的速度在玉米、高粱等农作物的地里前进

视频搜索太难了!阿里文娱多模态搜索算法实践

视频搜索是涉及信息检索、自然语言处理(NLP)、机器学习、计算机视觉(CV)等多领域的综合应用场景

浅谈服务机器人的潜在危险

服务机器人潜在危险有:电击、与能量有关的危险、着火、与热有关的危险、机械危险、辐射、化学危险等

个性化的人机交互

HRI的MTL可以使机器人更轻松,更智能地与新用户进行交互,即使使用诸如RL这样的数据密集型方法,也可以避免社交交互失败的不利影响。MTL和多模态ML已用于自动识别自闭症谱系障碍(ASD)儿童

优必选专家丁宏钰深入讲解大型仿人机器人整机构型

从大型仿人机器人整机构型国内外研究现状入手,围绕机器人整机构型、关节运动特点、伺服驱动器、减速器、仿真平台等方面进行深度讲解,最后就大型仿人机器人整机构型未来发展趋势给出自己的见解
资料获取
机器人知识
== 最新资讯 ==
ChatGPT:又一个“人形机器人”主题
ChatGPT快速流行,重构 AI 商业
中国机器视觉产业方面的政策
中国机器视觉产业聚焦于中国东部沿海地区(
从CHAT-GPT到生成式AI:人工智能
工信部等十七部门印发《机器人+应用行动实
全球人工智能企业市值/估值 TOP20
创泽智能机器人集团股份有限公司第十一期上
谐波减速器和RV减速器比较
机器人减速器:谐波减速器和RV减速器
人形机器人技术难点 高精尖技术的综合
机器人大规模商用面临的痛点有四个方面
青岛市机器人产业概况:机器人企业多布局在
六大机器人产业集群的特点
机械臂-高度非线性强耦合的复杂系统
== 机器人推荐 ==
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人开发平台

机器人开发平台


机器人招商 Disinfection Robot 机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 机器人政策 教育机器人 迎宾机器人 机器人开发 独角兽 消毒机器人品牌 消毒机器人 合理用药 地图
版权所有 创泽智能机器人集团股份有限公司 中国运营中心:北京 清华科技园九号楼5层 中国生产中心:山东日照太原路71号
销售1:4006-935-088 销售2:4006-937-088 客服电话: 4008-128-728