Transformer
文章平均质量分 94
好名让狗申请了
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TR6 - Transformer实战 单词预测
实验做的还是比较简单的,Transformer模型中的编码器直接使用的是pytorch框架预定义好的模块,但是对于理解整个模型的训练过程还是非常有帮助的。在实验的过程中,发现torchtext模块也已经不在维护了,和计算机视觉不同,自然语言处理的模型的输入格式灵活多变,经常需要自己写代码调整,比如上面的data_process函数。原创 2024-04-26 16:08:14 · 2723 阅读 · 0 评论 -
TR5 - Transformer的位置编码
在NLP任务中,单词的序列顺序是非常重要的,将单词的顺序重新排列,整个句子的意思可能会发生改变。在RNN循环神经网络中,有着处理序列顺序的内置机制。Transformer通过引入位置编码机制来保存文本中字符的位置信息。位置编码记录了文本中字符的位置信息,它并没有使用单个数字(例如索引值)的形式来记录位置信息。对于长序列,索引的大小可能会变得很大,不利于存储。将索引值规范化到0-1之间,可能会为可变长度序列带来问题(它们的标准化方式不同)。原创 2024-04-19 14:28:18 · 1093 阅读 · 0 评论 -
TR4 - Transformer中的多头注意力机制
多头注意力机制可以说是Transformer中最主要的模块,没有之一。这次我们来仔细分析一下注意力机制与多头注意力机制。通过对多头注意力机制的学习,有一个让我印象深刻的地方就是,它的多头注意力机制不是像其它模块设计思路一样,对同一个输入做了多组运算,而是将输入切分成不同的部分,每部分分别做了多组运算。由于自然语言处理中,一个单词的词向量往往是很长的,所以这种方式比CV的那种堆叠的方式能减少很多计算量,并且在效果方面不会损失太多。原创 2024-04-12 17:03:02 · 1152 阅读 · 0 评论 -
TR3 - Transformer算法详解
本周在理论上学习了Transformer模型的结构、组成、训练过程。让我印象最深刻的就是Seq2Seq模型不仅有一个输入头,它的编码器是和CV模型共通的,但是编码器也有输入,并且先每个时间步只输出一个单词,这点和RNN一样并没有什么变化。这也制约了NLP任务的训练和推理。另外我没想到它的损失函数竟然和最基础的分类网络一样,用简单的交叉熵损失就可以。原创 2024-04-05 20:02:29 · 1098 阅读 · 0 评论 -
TR2 - Transformer模型的复现
类似于残差的连接在Transformer中也十分常见,还有先缩小再放大的Bottleneck结构。整个Transformer模型的核心处理对特征的维度没有变化,这一点和CV模型完全不同。Transformer的核心是多头自注意机制。原创 2024-03-29 20:32:56 · 830 阅读 · 0 评论 -
TR1 - Transformer起源与发展
自监督学习(Self-supervised Learning)是一种机器学习方法,其特点在于从数据本身自动生成标签或监督信号,无需人工标注。简单来说就是让机器利用数据本身的结构或特征来进行学习,从而不依赖于外部标签或监督信号。原创 2024-03-21 18:01:43 · 1589 阅读 · 0 评论
分享