首页
产品系列
行业应用
渠道合作
新闻中心
研究院
投资者关系
技术支持
关于创泽
| En
 
  当前位置:首页 > 新闻资讯 > 机器人知识 > 深度解析大规模参数语言模型Megatron-BERT  
 

深度解析大规模参数语言模型Megatron-BERT

来源:智东西      编辑:创泽      时间:2020/6/18      主题:其他   [加盟]
大家好,我是NVIDIA解决方案架构师王闪闪。今天主要和大家分享两个部分的内容:

1.  BERT模型深度解析

2.  大规模参数的语言模型Megatron-BERT

我们今天主要是温故知新我先带大家复习一下BERT模型的整体架构,内容不会特别偏数学,主要把BERT一些要点给大家说清楚,包括BERT的输入/输出以及具体它是怎么工作的,然后介绍NVIDIA基于BERT开发出的一系列好的模型。

先介绍一下自然语言处理常见的应用方向,类是序列标注,比如命名实体的识别、语义标注、词性标注,循环智能也是用了序列标注。第二类是分类任务,如文本分类和情感分析,这个方向目前在量化金融L域,尤其是对冲基金上应用性很强,尤其是情感分析。我记得3、4年前,有一条新闻说斯坦福大学的一个硕士生,暑期在他的宿舍里用几块GPU卡,自己搭建了一个小的超J计算机,他把Twitter上的信息全部录下来,每天更新。他使用了BERT进行情感分析,把每天每个人的信息分成三类:positive积J、neutral中性、negative消J。他把三类情感的量化信息和当天纳斯达克股票的升跌情况汇总,进行了统计分析,发现如果Twitter上的信息大部分都是积J的,那么股票就有很大的概率会上涨。我们现在把这类数据叫做情感分析因子,它在股票分析上是一个特别重要的推进方向,能让模型越发准确。第三类NLP应用方向就是对句子关系的判断,如自然语言的推理、问答系统,还有文本语义相似性的判断。后一类,是生成式任务,如机器翻译、文本摘要,还有创造型的任务比如机器写诗、造句等。

BERT模型深度解析

现在我们进入正题:对BERT的讲解。要了解BERT,先我们要说一下Transformer,因为BERT主要就是基于Transformer和注意力机制,这两点也是BERT能从GPT、RNN、LSTM等一系列架构中能脱颖而出的很大原因。Attention,专业的叫法是Attention Mechanism,Attention是一个Encoder+Decoder的模型机制。Encoder-Decoder模型是在深度学习中比较常见的模型结构:在计算机视觉中这个模型的应用是CNN+RNN的编辑码框架;在神经网络机器翻译的应用是sequence to sequence模型,也就是seq2seq。而编码(Encoder)就是将序列编码成一个固定长度的向量,解码(Decoder)就是将之前生成的向量再还原成序列。

那么问题来了,为什么要在Encoder-Decoder模型机制中引入Attention呢?因为 Encoder-Decoder模型有两个比较显著的弊端:

一是Encoder会把序列信息压缩成一个固定长度的向量,那么在Encoder的输出中,我们暂且把它叫做语义编码c,c就有可能无法完全地表示出全部序列的信息,尤其是当信息特别长时。

二是先输入到网络中的信息会被后输入的信息覆盖掉,输入的信息越长,对先前输入信息的遗忘程度就越大。因为这两个弊端,Decoder在解码的一开始就没有获得一个相对完整的信息,也就是语义编码c没有一个相对完整的信息输入,那么它解码的效果自然就不好。有的同学可能会说想要解决RNN记忆力差的问题,可以考虑用LSTM。我们的确可以考虑LSTM,但LSTM对超长距离的信息记忆,效果也不是很好。

我们再来看看Attention为什么能够解决这个问题。Attention,顾名思义是注意力。它是模仿人类的注意力,人类在处理一个问题时会把注意力放到那个特别重要的地方,比如我们在短时间内去看一张照片,眼落到照片上的位置可能是某个建筑物或者是某个人,这取决于我们不同的目的和兴趣等。我们不会在短时间之内记清楚甚至是看清楚照片上的全部细节,但是我们会将注意力聚焦在某个特定的细节上并记住它。Attention模型终输出结果也是能够达到这么一个效果。 

Attention的机制早也是应用在计算机视觉上面,然后是在自然语言处理上面发扬光大。由于2018年在GPT模型上的效果非常显著,所以Attention和 Transformer才会成为大家比较关注的焦点。之所以Attention的能力在NLPL域得到了彻底释放,是因为它解决了RNN不能并行计算的弊端,Attention使其每一步的计算不依赖于上一步的计算,达到和CNN一样的并行处理效果。并且由于Attention只关注部分的信息,所以它的参数较少,速度就会快。其次RNN记忆能力较差,所以大家一开始想到的解决方式都是用LSTM和GRU(Gated Recurrent Unit)来解决长距离信息记忆的问题,但是都没有起到很好的效果。Attention由于只关注长文本中的一个小部分,可以准确地识别出关键信息,所以取得了特别不错的效果。

下面我们来说一下Attention是怎么实现的聚焦。主要是因为它是采用了双向的RNN,能够同时处理每个单词前后的信息。在Decoder中,它先计算每一个Encoder在编码隐藏层的状态,然后会和Decoder隐藏层状态比较,做出相关程度的评定。得到的权值会通过softmax归一化得到使用的权重,也就是我们前面所说的编码向量c。然后对Encoder中对应的不同状态的权重进行加权求和,有了编码c之后,我们就可以先计算Decoder隐藏层的状态,然后再计算Decoder的输出。这就是一个比较完整的在BERT当中运用Attention以及Encoder-Decoder模型的使用案例。Attention根据计算区域、权值的计算方式等会有很多不同变种。

不止是在NLPL域,在其他很多L域中,Transformer的模型由于很好用都是大家选的,主要的一个运用机制就是Attention。我们之后会说到的Transformer模型会用到 Multi-head Attention和Self-Attention。先说一下Self-Attention,Self-Attention是将原文中每个词和该句子中所有单词之间进行注意力的计算,主要是为了寻找原文内部的关系。对应到阅读理解任务,这个模型就可以判定一篇文章中的两段话是不是同一个意思。Multi-head Attention,则是对一段原文使用多次的注意力,每次会关注到原文的不同部分,相当于多次地在单层中使用Attention,然后把结果给拼接起来。 







亿级视频内容如何实时更新

基于内容图谱结构化特征与索引更新平台,在结构化方面打破传统的数仓建模方式,以知识化、业务化、服务化为视角进行数据平台化建设,来沉淀内容、行为、关系图谱,目前在优酷搜索、票票、大麦等场景开始进行应用

基于真实环境数据集的机器人操作仿真基准测试

通过使用仿真和量化指标,使基准测试能够通用于许多操作领域,但又足够具体,能够提供系统的有关信息

看高清视频,如何做到不卡顿

优酷智能档突破“传统自适应码率算法”的局限,解决视频观看体验中高清和流畅的矛盾

京东姚霆:推理能力,正是多模态技术未来亟需突破的瓶颈

姚霆指出,当前的多模态技术还是属于狭隘的单任务学习,整个训练和测试的过程都是在封闭和静态的环境下进行,这就和真实世界中开放动态的应用场景存在一定的差异性

利用时序信息提升遮挡行人检测准确度

Tube Feature Aggregation Network(TFAN)新方法,即利用时序信息来辅助当前帧的遮挡行人检测,目前该方法已在 Caltech 和 NightOwls 两个数据集取得了业界领先的准确率

基于网格图特征的琵琶指法自动识别

根据各种指法的具体特点,对时频网格图、时域网格图、频域网格图划分出若干个不同的计算区域,并以每个计算区域的均值与标准差作为指法自动识别的特征使用,用于基于机器学习方法的指法自动识别

知识图谱在个性化推荐领域的研究进展及应用

新加坡国立大学NExT中心的王翔博士分析了知识图谱在个性化推荐领域的应用背景,并详细介绍了课题组在个性化推荐中的相关研究技术和进展,包括基于路径、基于表征学习、基于图神经网络等知识图谱在推荐系统中的融合技术

重构ncnn,腾讯优图开源新一代移动端推理框架TNN

新一代移动端深度学习推理框架TNN,通过底层技术优化实现在多个不同平台的轻量部署落地,性能优异、简单易用。腾讯方面称,基于TNN,开发者能够轻松将深度学习算法移植到手机端高效的执行,开发出人工智能 App,真正将 AI 带到指尖

达摩院金榕教授113页PPT详解达摩院在NLP、语音和CV上的进展与应用实践

达摩院金榕教授介绍了语音、自然语言处理、计算机视觉三大核心AI技术的关键进展,并就AI技术在在实际应用中的关键挑战,以及达摩院应对挑战的创新实践进行了解读

OpenAI发布了有史以来最强的NLP预训练模型GPT-3

2020年5月底OpenAI发布了有史以来最强的NLP预训练模型GPT-3,最大的GPT-3模型参数达到了1750亿个参数

多尺度图卷积神经网络:有效统一三维形状离散化特征表示

解决了传统图卷积神经网络中图节点学习到的特征对图分辨率和连接关系敏感的问题,可以实现在低分辨率的三维形状上学习特征,在高低分辨率形状之上进行测试,并且保持不同分辨率特征的一致性

履约时间预估:如何让外卖更快送达

外卖履约时间预估模型,预估的是从用户下单开始到骑手将餐品送达用户手中所花的时间
 
资料获取
新闻资讯
== 资讯 ==
» 2025机器人企业创新50强
» 机器人的动力学:拉格朗日法
» 机器人的运动学模型:运动学模型和动力学模
» 机器人的传动机构:有丝杠传动机构、齿轮传
» 机器人的移动机构:车轮式移动机构;履带式
» 机器人的技术参数:自由度、定位精度和重复
» 医用机器人的应用:临床医疗用机器人、护理
» 海南省中小学人工智能教育应用指南 (20
» 海南省推进中小学人工智能教育工作方案 (
» 服务机器人的应用:为人类生活和健康提供服
» 机器人的详细设计:控制方案,设计及驱动方
» 机器人的自由度,直接影响到机器人的机动性
» 机器人系统的结构:机械手、环境、任务 和
» 2025年智能焊接机器人产业发展蓝皮书:
» 商用服务机器人控制系统的组成:任务规划,
 
== 机器人推荐 ==
 
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人底盘

机器人底盘

 

商用机器人  Disinfection Robot   展厅机器人  智能垃圾站  轮式机器人底盘  迎宾机器人  移动机器人底盘  讲解机器人  紫外线消毒机器人  大屏机器人  雾化消毒机器人  服务机器人底盘  智能送餐机器人  雾化消毒机  机器人OEM代工厂  消毒机器人排名  智能配送机器人  图书馆机器人  导引机器人  移动消毒机器人  导诊机器人  迎宾接待机器人  前台机器人  导览机器人  酒店送物机器人  云迹科技润机器人  云迹酒店机器人  智能导诊机器人 
版权所有 © 创泽智能机器人集团股份有限公司     中国运营中心:北京·清华科技园九号楼5层     中国生产中心:山东日照太原路71号
销售1:4006-935-088    销售2:4006-937-088   客服电话: 4008-128-728