- 博客(6)
- 收藏
- 关注
原创 Transformer教程——task03
输入的 x 序列经过 “Multi-Head Self-Attention” 之后实际经过一个“Add & Norm”层,再进入“feed-forward network”(后面简称FFN),在FFN之后又经过一个norm再输入下一个encoder layer。在缩放点积注意力(scaled dot-product attention) 中,还有mask部分,在训练时它将被关闭,在测试或者推理时,它将被打开去遮蔽当前预测词后面的序列。每个头都有自己的Q、K和V,最后将所有头的输出通过一个线性层拼接起来。
2025-02-16 23:57:20
1224
原创 transformer学习教程------词向量生成模型
GloVe(Global Vectors for Word Representation):结合了基于统计的方法和神经网络方法。Word2Vec:Word2Vec有两种主要的架构:CBOW和Skip-Gram。:其核心思想是词语的语义是通过上下文信息来确定的,即相同语境出现的词,其语义也相近。也就是说该模型最大的贡献就是让相关或者相似的词,在距离上更近了。分布式表征向量编码一定程度上解决了独热编码忽略词汇上下文的问题,而且词典的长度是固定的,也避免了词向量维度过大导致的计算问题。
2025-02-14 12:19:51
1138
原创 Git命令教程
Git工作下对与工作文件的修改会存在几个区,分别是工作区、暂存区和仓库。git add (工作区-----暂存区)git add | 通配符git commit(暂存区-----本地仓库)git commit -m “注释”git status 查看状态git log 查看提交日志–all 现实所有分支–pretty=oneline 将提示信息显示为一行–abbrev-commit 使得输出的commitld更简短–graph 以图形的形式显示。
2025-02-14 01:54:28
687
原创 Transformer学习教程——第二天
编码器-解码器结构:Transformer的核心是其编码-解码器结构,分别负责处理输入序列和生成输出序列。编码器和解码器中的每一层都包含相同的子层,包括自注意力机制和前馈网络。这种架构不仅有利于全面理解输入序列,而且能够生成上下文丰富的输出序列。位置编码:尽管Transformer模型具有强大的功能,但它缺乏对元素顺序的内在理解。通过将输入嵌入与位置信息结合起来,位置编码使模型能够区分序列中元素的相对位置。多头注意力:Transformer模型的一个显著特征是它能够同时关注输入序列的不同部分。
2025-02-11 19:24:19
1154
原创 Transformer学习笔记——第一天
Seq2Seq模型是出入一个序列,输出一个序列。这种结构的输入序列和输出序列的长度是可变的。处理可变长度的序列时,使用Bos和Eos可以减少对填充的依赖,因为模型可以根据这些标识来识别序列的边界。Seq2Seq模型在概念上还与通信原理有一定的相似性。都是先将信息编码为一个latent,再解码这个latent。
2025-02-10 22:05:10
1420
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅