
transformer
文章平均质量分 91
全息数据
用数据拟合世界。
展开
-
一文解答Swin Transformer + 代码【详解】
下面是Swin Transformer论文的Abstract,原创 2024-09-09 19:09:05 · 1026 阅读 · 0 评论 -
Vision Transformer (ViT) + 代码【详解】
虽然 Transformer 架构已成为自然语言处理任务的事实标准,但它在计算机视觉领域的应用仍然有限。在 Vision 中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯 Transformer 可以在图像分类任务中表现良好。原创 2024-09-03 17:01:59 · 4446 阅读 · 2 评论 -
Self Attention(自注意力机制) | Multi-Head Attention【详解】
attention和推荐算法具有相似性,推荐的机制大致如下:在搜索框输入商品名称键盘,后台会根据你输入的商品名称和商品的标签或title进行匹配,你输入的商品名称为query,商品的标签或title为key,query和key做计算后为相似度,后台会根据商品的一些特性,比如销量,好评度来进行商品排序,特性被称为value,相似度与value做计算后为总分。计算,得到的 q 和 k 的矩阵的维度都是 1x2,v 矩阵的维度是 1x3,每组的 q 乘以 k 的转置的维度是 1x1的,再除以。原创 2024-08-27 16:22:01 · 1115 阅读 · 0 评论 -
成功解决:RuntimeError: CUDA error: no kernel image is available for execution on the device
安装的 PyTorch 版本和 CUDA 版本不兼容。可以重新安装与系统上 CUDA 版本匹配的 PyTorch 版本。CUDA 版本与 GPU 驱动程序或 PyTorch 安装的 CUDA 编译版本不兼容。安装完成后,就可以完美解决这个Bug!原创 2024-08-23 09:44:21 · 4219 阅读 · 0 评论 -
DDPM | 扩散模型代码详解【较为详细细致!!!】
左图是Transformer的Positional Embedding,行索引代表第几个单词,列索引代表每个单词的特征向量,右图是DDPM的Positional Embedding,DDPM的Positional Embedding和Transformer的Positional Embedding的。另一个区别是DDPM的Positional Embedding并没有按照奇数位和偶数位进行拼接,而是按照前后的sin和cos进行拼接的,虽然拼接方式不同,但是最终的效果是一样的。这是下采样模块的解释,原创 2024-08-19 17:31:15 · 4507 阅读 · 3 评论 -
Positional Encoding | 位置编码【详解】
transformer的作者刚开始说固定的位置编码和可学习的位置编码的效果是差不多的,后来证明固定的位置编码没有太大的必要,还不如省事直接使用可学习的位置编码,如下图,设置token的数量为10,token的特征向量长度为128,偶数项和奇数项的位置编码公式如下图所示,代码中,token_num是句子中的单词数量,embed_dim表示每个单词的特征向量长度,将对应位置的位置编码直接加在输入的单词上,如下图中的最后一行,为什么 attention 并不能赋予 token 位置信息?原创 2024-08-14 15:35:56 · 2547 阅读 · 0 评论 -
Transformer代码从零解读【Pytorch官方版本】
输入经过词向量层和位置编码层,得到最终的输入,通过掩码注意力机制,然后交互注意力机制与Encoder的输出做交互,Encoder的输出做K矩阵、V矩阵,Decoder的值做Q矩阵,再经过前馈神经网络层,得到Decoder的输出,解码端是没法并行的,因为输入【S】,输出【I】,然后输出的【I】作为下一阶段的输入,这一次的输入取决于上一次的输出,所以解码端无法并行,如果当前输入为【S】,则后面的【卷起来】被遮挡,当输入为【S卷】时,后面的【起来】被遮挡,形成上三角矩阵为1的矩阵,如何去掉PAD信息?原创 2024-03-16 15:18:45 · 2311 阅读 · 2 评论 -
ChatGLM-6B训练本地知识库【详解】
左边是Encoding,右边是Decoding,trm的输入和输出都可以是序列,所以trm可以做文本翻译,BERT是Bidirectional Encoder Representations from Transformers的缩写,BERT是Transformer的Encoder一个预训练的语言表征模型在大量未标注的文本数据集上训练论文发表时在11个NLP任务上取得最佳指标BERT所做的事情就是把一个句子输出一个Embedding,原创 2024-02-05 11:05:07 · 2006 阅读 · 1 评论 -
Transformer结构详解【学习笔记】
然后再对Encoders(编码),Decoders(解码)进行细化,如下图,需要注意Encoders之间的结构是相同的,Decoders之间的结构也是相同的,虽然Encoders和Decoders之间各自的结构是相同的,但是是单独训练的,Encoders和Decoders的数量是超参数,可以自己定义,,依次对输入的【我爱你。下面再举一个NLP的例子,Query代表【爱】,分别与Key1,Key2,Key3,Key4代表的【我】,【不】,【爱】,【你】做点乘,具体步骤如下2图,比如输入的词是【我爱你。原创 2024-01-11 12:44:11 · 1861 阅读 · 2 评论