济南怎样做网站推广,网站建设费专用票,酷炫html5网站,不用域名推广网站来源#xff1a;专知注意力机制(Attention)起源于模仿人类的思维方式#xff0c;后被广泛应用于机器翻译、情感分类、自动摘要、自动问答等、依存分析等机器学习应用中。专知编辑整理了Arxiv上一篇关于注意力机制在NLP中应用的综述《An Introductory Survey on Attention Mec… 来源专知注意力机制(Attention)起源于模仿人类的思维方式后被广泛应用于机器翻译、情感分类、自动摘要、自动问答等、依存分析等机器学习应用中。专知编辑整理了Arxiv上一篇关于注意力机制在NLP中应用的综述《An Introductory Survey on Attention Mechanisms in NLP Problems》并提供一些相关的代码链接。简介在下图中左边是传统的Seq2Seq模型将序列编码然后解码为序列可以看出这是一个传统的基于LSTM模型在解码器Decoder中某一时间戳的隐藏状态只依赖于当前时间戳的隐藏状态和上一时间戳的输出。右边是基于Attention的Seq2Seq模型Decoder的输出还需要依赖于一个上下文特征(c)这个上下文特征是通过Encoder中所有时间戳的隐藏状态的加权平均得到的加权平均所使用的权值就是当前时间戳和Encoder中每一时间戳的Attention Score(a)。Attention的一般形式下面的公式是Attention的基础形式(Basic Attention)其中u是基于当前任务的匹配特征向量用于和上下文进行交互。vi是时序中某个时间戳的特征向量ei是未归一化的Attention Scoreai是归一化的Attention Scorec是基于Attention Score和特征序列v计算出的当前时间戳的上下文特征。 在大多数情况下ei可以通过下面几种方法计算在实际应用中除了基础的AttentionAttention还有多种变式下面我们来介绍一些常见的变式变式——Multi-dimensional Attention对于每个uBasic Attention对于每个vi都会生成一个Attention Score ai即每个u会对应一个1-D的Attention Score向量。而Multi-dimensional Attention会产生更高维度的Attention矩阵旨在获取不同特征空间中的Attention特征例如2D Attention的一些形式如下变式——Hierarchical Attention一些Attention算法同时考虑不同语义层级之间的Attention例如下面的模型先后利用词级别和句子级别的Attention来获得更好的特征变式——Self Attention将上面公式中的u替换为上下文序列中的vi即为Self Attention。在NLP中Self Attention可以获取句子中词之间的一些依存关系。另外在一些任务中一个词的语义与上下文密切相关例如在下面两个句子中bank分别指银行和河岸要准确判断bank当前的语义可以通过句子的上下文来判断。I arrived at the bank after crossing the street. I arrived at the bank after crossing the river变式——Memory-based AttentionMemory-based Attention的形式如下其中{(ki, vi)}被称作Memory这里Memory其实是输入的同义词。尤其当ki和vi相等时Memory-based Attention和Basic Attention是相同的。 例如在QA问题中Memory-based Attention可以通过迭代地更新Memory来将注意力转移到答案所在的位置。Attention的评价定量的Attention的评价可以通过intrinsic和extrinsic两种方式。Intrinsic基于标注的Alignment数据进行判断因此需要大量的人工标注。Extrinsic方式比较简单即直接比较模型在具体任务上的效果但extrinsic评价方式的问题在于很难知道效果的提升是否是由Attention机制所带来的。定量的评价一般通过可视化热力图来实现相关Attention代码《Neural Machine Translation by Jointly Learning to Align and Translate》https://github.com/tensorflow/nmt《Hierarchical Attention Networks for Document Classification》https://github.com/richliao/textClassifier《Coupled Multi-Layer Attentions for Co-Extraction of Aspect and Opinion Terms》https://github.com/happywwy/Coupled-Multi-layer-Attentions《Attention Is All You Need》https://github.com/Kyubyong/transformer《End-To-End Memory Networks》https://github.com/facebook/MemNN参考资料《An Introductory Survey on Attention Mechanisms in NLP Problems》https://arxiv.org/abs/1811.05544未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”