文献记录－Attention Is All You Need

最新推荐文章于 2024-06-04 12:44:10 发布

wenqiang su

最新推荐文章于 2024-06-04 12:44:10 发布

阅读量332

点赞数

分类专栏：文献记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42681868/article/details/106653139

版权

文献记录专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨了Transformer模型，一种完全依赖注意力机制的序列到序列模型，它解决了传统RNN模型的并行化难题，大大提高了训练效率。Transformer由六个相同的encoder和decoder层组成，通过多头注意力机制增强模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文献地址：

https://arxiv.org/pdf/1706.03762.pdf

Attention Is All You Need

摘要：

不同与传统的机器翻译模型使用复杂的循环神经网络和卷积神经网络去构成翻译器的encoder 和decoder，attention机制大大提升了模型训练时的并行化程度，并减少了训练和预测的时间．

简介：

存在的问题：
传统的序列模型RNN,GRU,LSTM都需要等待得到上一个时间的ht-1计算结果才能计算当前的ht，这大大缩小了计算过程并行化处理的可能性．

解决方案：
transformers . 完全靠注意力机制去从全局上表现输入和输出之间的联系．

背景

其他序列并行化模型：
Extended Neural GPU，ByteNet，ConvS2S．这些都是卷积模型，并且在计算序列中距离较远的两个部分时，其计算步骤会增加．

在transformer中的，序列的不同位置的计算量则是被降低到一个恒定的值（虽然这可能会降低分辨率或者说会有信息损失，但是后面的多头机制有助于解决这个问题（增加信息之类的？））

模型

在这里插入图片描述

transformer由encoder 和decoder 构成．其中两部分都是由完全相同的６个合成层的pipline构成的，encode的每个合成层有两个子层，decode的每个合成层有３个子层．如上图所示．
Add:　残差
Norm: layer normalization
Feed-Forward:两个全连接层（中间用一个RELU链接）

transformer可以被认为是一个映射表：（提问，键，值）＞＞　输出向量．

在这里插入图片描述
１：每个特征的Ｑ去点乘所有特征的Ｋ
２：将上面的结果缩放（除以dk^0.5）－－　scale
３：把Ｑ和每个特征的Ｋ乘出来的结果，ｍ个数输入到softmax中，缩放到０－１
４：softmax的结果乘每个特征的Ｖ，然后加起来就是该特征的输出了

在多头模型中，每头（通道）的计算和单头的attention的计算过程一样，然后在把每个头的结果concat起来．每个头在训练过程中是有可能学习到不同的部分的信息的．

绝对位置信息的维度和embbeding的维度相同，所以会在输入时把位置向量和embedding直接相加，再输入到attention中．

博客等级

码龄7年

74
原创

18
点赞

118
收藏

12
粉丝

关注

私信

热门文章

分类专栏

English
报错记录 1篇
文献记录 7篇
数据结构 1篇
比赛 4篇
Tensorflow2.0 11篇
前端 2篇
Pytorch 18篇
Paddle 7篇
数据库 2篇
spider 1篇
机器学习 11篇
深度学习 4篇
java 3篇
python 3篇
爬虫 2篇
大数据 3篇
数据分析 1篇
scala

展开全部收起

上一篇：: 排序

下一篇：: 文献记录－BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新评论

pytorch-transformers （BERT）微调
lyn_CS: 直接torch.save(model, PATH)，下次调用时直接model = torch.load(PATH)
pytorch-transformers （BERT）微调
lyn_CS: 你看一下transformers的文档，里面有说到怎么保存和加载模型。训练好的模型保存起来，就可以直接用 # Saving best-practices: if you use defaults names for the model, you can reload it using from_pretrained() if args.do_train and (args.local_rank == -1 or torch.distributed.get_rank() == 0): # Create output directory if needed if not os.path.exists(args.output_dir) and args.local_rank in [-1, 0]: os.makedirs(args.output_dir) logger.info("Saving model checkpoint to %s", args.output_dir) # Save a trained model, configuration and tokenizer using `save_pretrained()`. # They can then be reloaded using `from_pretrained()` model_to_save = model.module if hasattr(model, 'module') else model # Take care of distributed/parallel training model_to_save.save_pretrained(args.output_dir) tokenizer.save_pretrained(args.output_dir) # Good practice: save your training arguments together with the trained model torch.save(args, os.path.join(args.output_dir, 'training_args.bin'))
pytorch-transformers （BERT）微调
书屋里的咸鱼: 请问您知道训练完成后的bert怎么保存以用于其他的下游任务吗？
pytorch学习笔记-入门-定义网络
Tisfy: 深得人心，正如古人云：欲买桂花同载酒，终不是、少年游。
TF2-Wide&Deep-subclass
程序猿学长: 感谢分享

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。