
Transformer
文章平均质量分 89
Galaxy.404
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis—笔记
多模态情感分析领域,本文提出了自适应存储引导的多模态Transformer(ALMT),该方法采用自适应超模态学习(AHL)模块,在不同尺度的语言特征指导下,从视觉和听觉特征中学习出一种无关/冲突抑制表征。原创 2024-10-30 11:41:33 · 1219 阅读 · 0 评论 -
Transformer模型:scaled self-attention mask实现
至此,难点集合就学习完了。这里其实就是公式计算。原创 2024-07-14 16:06:45 · 388 阅读 · 0 评论 -
Transformer模型:Decoder的self-attention mask实现
这是对Transformer模型Word Embedding、Postion Embedding、Encoder self-attention mask、intra-attention mask内容的续篇。原创 2024-07-14 15:46:59 · 1140 阅读 · 0 评论 -
Transformer模型:intra-attention mask实现
前言这是对Transformer模型的Word Embedding、Postion Embedding、Encoder self-attention mask内容的续篇。原创 2024-07-14 14:55:53 · 1230 阅读 · 0 评论 -
Transformer模型:Encoder的self-attention mask实现
这是对Transformer模型的Word Embedding、Postion Embedding内容的续篇。原创 2024-07-13 22:57:00 · 1311 阅读 · 0 评论 -
Transformer模型:Postion Embedding实现
这是对上一篇WordEmbedding的续篇PositionEmbedding。原创 2024-07-13 17:04:24 · 1932 阅读 · 0 评论 -
Transformer模型:WordEmbedding实现
接下来就是构造embedding了,这里nn.Embedding()传入了两个参数,第一个是embedding的长度,也就是单词个数+1,+1的原因是因为有个0是作为填充的,第二个参数就是embedding的维度,也就是一个单词会被映射为多少维度的向量。这里把tgt的也补充了,得到的就是src和tgt的内容各自在一个二维张量里(batch_size,max_seg_len),batch_size也就是句子数,max_seg_len也就是句子的单词数(分为src的长度跟tgt两种)。原创 2024-07-12 17:38:57 · 2360 阅读 · 0 评论