当前位置: 首页 > 运动场馆

谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT!

发布日期:2019-07-14 19:01:25 | 编辑:有氧运动网| 阅读次数:

雷锋网由AI技术回顾:在GitHub上公布的去年十一月,谷歌的研究小组已久的BERT,它不仅树立了NLP最高得分在11次测试,甚至表现出惊人的结果比人类综合。BERT但不超过今天陆续这么多NLPer令人振奋的消息发布震惊:CMU脑与谷歌提出的20多个任务BERT性能的新XLNet,取得了最in的18项任务,效果良好!而更令人兴奋的是,目前XLNet开设了一个训练码和大前训练模式。雷锋网AI技术审查的讨论的具体内容如下。

XLNet信息传播

BERT和X关系LNET

基于预先训练与自我治疗回归建模语言,从编码方法(如BERT)训练前工艺相比具有基于上下文建模能力良好的双向。然而,由于使用了掩模的依赖于损伤输入,BERT忽略掩模位置之间的依赖关系,以及预训练的出现 - 微调(pretrain-精调)差。

XLNet是基于优势和BERT的缺点提出了自回归前的训练方法的推广。这可能性最大化的保理安排顺序的所有期望实现双向学习环境; 由自回归方程克服了BERT的局限性,并从变压器-XL(最先进的自回归模型)整合思路,岗前培训,表现出所代表的语言任务长文本优异的性能。

XLNet背景诞生

首先,我们需要了解两个概念:自回归(AR)建模语言和自编码(AE)。

\

无监督学习代表了自然语言处理领域取得了巨大成功。通常,这些方法是在大规模的未标记文本语料库第一预训练的神经网络,那么微调或表示的模型下游任务。在这个共同的高层次的思维,不同的无监督训练前的目标已探索在文献。其中,自回归建模语言和自我编码是两个最成功的训练前的目标。

AR概率语言模型是利用自回归模型来估计文本语料库的分布。具体而言,一个给定的文本序列x =(X1之后, 。,XT),AR这概率语言模型被分解到的产品的产品之前或。的参数模型(如神经网络)被训练以每个条件的分布进行建模。由于AR语言模型训练的必经之路上下文译码(向前或向后),它并没有产生在深建模方面的双向效应。相反,下游语言理解任务,通常需要双向的上下文信息。这导致了AR建模语言,有效的岗前培训之间的差距。

给定相同的输入序列x但不同因数分解序列中,目标语言建模描述取代X3被预测

与此相反,估计基于预先训练AE是不明确的密度,而是意在从输入重构原始数据。而一个众所周知的例子是BERT,它采用了最先进的训练方法前。鉴于输入令牌序列,替换他们的特定部分的一个特殊符号[MASK的],并从令牌的损坏的版本恢复到原来的训练模式。

由于密度估计值是不是目标的一部分,BERT可用于重建的双向上下文。这直接的好处是双向的信息差距AR语言建模以提高性能的消除。然而,[该MASK] BERT,并在实际使用前训练的其他人工数据符号不存在,从而导致预训练的网络之间的间隙。此外,由于预测令牌重新隐藏在输入,BERT不能使用像联合概率模型AR产品规则相同建模语言。

因此,优势和预先存在的语言培训目标缺点,CMU和谷歌大脑呈现完全集成的自回归模型预先训练XLNet的AR和AE推广的优势。

详细XLNet

首先,XLNet AR模型不使用传统的固定以转发或分解,但所有可能的分解,以最大限度地数似然期望。因为操作序列因式分解的布置中,每个上下文可以是从左侧和右侧构成的令牌位置。需要的话,每个位置必须学会使用来自所有位置的环境信息,捕捉的双向上下文。

其次,作为语言模型AR泛化,XLNet残留数据不依赖于。因此,XLNet没有预先训练BERT - 微调差异的影响。同时,由于将目标还提供了一种自然的方式使用该产品的规则来执行的联合概率预测令牌的分解,从而消除了BERT所做的独立性假设。

除了新的训练前的目标,XLNet也改善了预训练的架构设计。

通过AR建模语言的最新发展的启发,XLNet分段重复机制变压器-XL和相关方式编码的预集成训练,提高任务长文本序列的性能。需要注意的是,变压器(-XL)被施加到一个简单的体系结构为基础的语言建模装置是无效的,因为靶序列的分解是任意的,是模糊。作为一种解决方案,研究人员提出了重新参数变压器(-XL)网络,以消除歧义。

实验结果

随着2019年6月19日,XLNet 20余个任务BERT性能,以及所取得的电流(国家的最先进的)的18项任务,包括问答机械,自然语言推理,情感分析和最好的结果文件排序。

以下是一些比较XLNet加大和伯特 - 大:

阅读理解任务

文本分类任务

\

ClueWeb09-B文件编排任务

\

在最后的20个任务,XLNet跑赢BERT,并取得了18次飞行任务中最先进成果。

模型发布

到现在为止,我们已经提供了以下模式:

XLNet-大,装箱:24层,1024隐藏,16头,

每。压缩文件包含三个项目:

TensorFlow检查点(xlnet_model。CKPT),包括以下权利预先训练重。

SentencePiece模型(spiece。模型),用于(脱)标记的。

一个配置文件(xlnet_config。超级参数JSON),指定的模型。

未来发行计划

按照开发商还计划继续在不同的环境,以释放出更多的人才培养模式,包括:

基本模式 - 将在2019年6月的月底发布XLNet-基地。

无封装模式 - 当前,装箱XLNet,比大的无套管XLNet,量大更优的性能。开发者仍在观察和研究,得出的结论时,他们会立即释放未套管模型。(估计时间不宜过长)

在维基百科上预培养模式的微调,其可用于任务维基百科的文本,如班长和HotpotQA。

的其它超参数预训练模型配置可用于特定的任务下游。

和新技术相关的前期培训模式。

相关链接

论文地址

HTTP://的arXiv。组织/ PDF / 1906.08237。PDF格式

前培训模型和代码地址

HTTP:// github上。COM / zihangdai / xlnet

雷锋网AI技术回顾

本文链接:谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT!

上一篇:赵永刚正式加盟广西威壮 麦蒂青岛队友征战NBL

下一篇:谷歌最新机器人阿特拉斯:未来终结者

友情链接:

佛经大悲咒 心经 佛教典籍

Copyright © 2017 有氧运动网 版权所有 All Rights Reserved. 网站地图

苏ICP备18043316号