Datawhale AI夏令营 Attention Is All You Need论文笔记概要

目录

文章信息:

题目:Attention Is All You Need

背景:

结论:

结果与讨论:

模型大,序列长时比较:

模型结构评价:用较为简单的结构和较少的可调参数实现了高并行,泛用性强的模型。

泛用性:Transformer可以用到几乎所有NLP中,并且开始泛化应用到 其他领域中,类似于CNN在计算机视觉中的作用。attention将信息糅合,但残差和信息编码都必不可少。因为attention没有太多空间假设,在泛用性 强的同时其信息抓取能力不如空间假设较多的CNN和RNN好,需要大模型   和大数据。

细节原理:

一.   使用layer normalization而不是batch normalization,变长应用中一般 不用batch norm。原理:

二.矩阵运算详解 

1.注意力机制 查询:

2.注意力机制 计算相似度与更新值:

3.掩码机制:


文章信息:

题目:Attention Is All You Need

背景:

之前的时间序列预测模型多采用RNN或CNN。 RNN的模型运算高度序列化,必须从前往后依次计算,很难使用并行加速运算。同时RNN信息仅能由前方 相邻节点向后方传递,这导致处理长距离序列时RNN容易损失前方远距离的信息。为了解决RNN的低并行问题,一些研究试图使用CNN处理序列预测,这解决 了并行问题。但CNN有限的感受野导致需要多层卷积才能将前方远距离的信息传  到后方,没有解决处理长距离序列的问题。目的:解决现有时间序列预测模型低   并行性和长距离序列信息传递困难的问题

结论:

通过使用注意力机制实现了信息任意点传输仅需一步的功能,解决了处理长 距离序列信息传递困难的问题。使用多头注意力机制使模型具有高并行性, 同时 模仿了CNN多通道输出的效果,解决了低并行性的问题。表现效果上,在WMT2014英语翻译德语和WMT 2014英语翻译法语标准数据集上都实现了SOTA

结果与讨论:

自注意力:增加关注文本长度开销大,增加投影维数开销小

RNN :增加文本长度开销小,增加投影维数开销大

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值