Transformer模型理解博客索引

最新推荐文章于 2025-01-09 23:27:16 发布

MHY的CH

最新推荐文章于 2025-01-09 23:27:16 发布

阅读量168

点赞数 1

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.youkuaiyun.com/weixin_43433969/article/details/106119523

版权

NLP 专栏收录该内容

14 篇文章

订阅专栏

1. 详解Transformer （Attention Is All You Need）

2. The Illustrated Transformer

3.The Illustrated Transformer【译】

4.Transformer 模型详解

5.从中文Transformer到BERT的模型精讲,以及基于BERT情感分类实战

6 图解Transformer——重要理解Attention

7 对模型中embedding的理解

8 各种attention机制

9 各种Attention机制2

10 seq2seq+attention

11 图解seq2seq+attention模型

Tips

tip1

Transformer 中encode层中self-attention的计算
这里的dk是Attention的输出维度大小，一般默认为64，所以加个根号便是8了。
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MHY的CH

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Transformer大模型实战理解多语言BERT 模型

AI天才研究院

06-06

961

Transformer模型自2017年被提出以来，就一直是自然语言处理（NLP）领域的核心技术。它的出现极大地推动了AI领域的发展，尤其是在机器翻译、文本生成、问答系统等应用中取得了显著的成果。在这篇文章中，我们将深入探讨Transformer模型的核心概念与原理，并以多语言BERT模型为例，通过实际操作步骤和代码实例来帮助读者更好地理解和实现这一强大的模型。

机器学习之Transformer模型和大型语言模型（LLMs）

JustinMars的博客

06-14

648

Transformer模型和大型语言模型（LLMs）是现代自然语言处理（NLP）和人工智能（AI）领域的前沿技术。这些模型革新了机器理解和生成人类语言的方式，使得从聊天机器人和自动翻译到复杂的内容生成和情感分析的应用成为可能。

参与评论您还未登录，请先登录后发表或查看评论

Transformer理解-八股文

weixin_42042056的博客

02-06

3134

使用不同的权重矩阵计算是为了在不同的空间上进行投影，增强模型表达能力，提高score矩阵的泛化性。由于padding都是0，在计算时e^0 = 1使用softmax会导致padding的值也会占全局一定的概率，因此，使用mask的目的就是让这部分的值无穷小，让他在softmax之后基本为0从而保证不影响attention socre的分布。BN 一般在MLP和CNN上有较好的表现，在RNN模型中表现较差。为什么使用LN而非BN，LN在transformer的位置时哪里，BN的使用场景与LN的区别。

在Transformer模型中d_k是如何确定的

m0_51200050的博客

06-23

1550

在多头注意力机制中，确定了每个头的维度dkd_kdk和dvd_vdv后，权重矩阵WQW_QWQWKW_KWK和WVW_VWVWQ∈R512×64WK∈R512×64WV∈R512×64WQ∈R512×64WK∈R512×64WV∈R512×64。

理解Transformer

Galen_xia的博客

03-03

950

Transformer is all your need！

Transformer相关知识总结-面试知识点总结4

weixin_48215309的博客

11-26

1419

作者将用一个系列的博客，总结机器/深度学习算法工程师岗位面试中常见的一些知识点，以帮助小伙伴们更好的应对面试。本系列的内容包括如下： > 系列一：机器学习相关基础知识小Tip > 系列二：Python基础总结 > 系列三：CNN相关知识 > 系列四：Transformer相关知识总结 > 系列五：经典/热门模型介绍，及深度学习常用知识点 > 系列六：PyTorch相关知识点及端侧部署基础知识

transformer注意力机制的理解（Q,K,V,dk）

Quentin_nb的博客

10-24

6341

注意力机制缩放系数 QKV

Transformer模型解析（附案例应用代码）

LIUMAO99的博客

08-14

6895

自注意力机制是Transformer模型的核心，它允许模型在编码每个单词时同时关注序列中的其他单词，从而捕捉到单词之间的依赖关系。位置编码的生成使用了正弦和余弦函数的不同频率，以确保编码在不同维度上具有不同的模式，从而使模型能够区分不同位置的单词。这样，每个头可以学习到序列的不同方面，最终的输出是所有头输出的连接和线性变换的结果。通过结合残差连接和层归一化，Transformer模型能够有效地训练深层网络，同时保持稳定的梯度流动和良好的特征分布，这对于理解和生成复杂的序列数据至关重要。

Transformer模型的预训练与微调技术

AI天才研究院

04-24

1123

介绍了自然语言处理技术的发展历程，特别是Transformer模型的崛起，并详细介绍了Transformer模型的核心概念、算法原理和应用场景。自然语言处理技术是人工智能领域的重要研究方向，其目标是使计算机能够理解和处理人类语言。近年来，随着深度学习技术的兴起，NLP领域取得了显著的进展。Transformer模型是一种基于自注意力机制的深度学习模型，它采用编码器-解码器架构，并通过多头注意力机制来捕捉输入序列中不同位置之间的依赖关系。

Transformer模型全解析：从原理到实践，图解+手撕代码_transformer模型详解(1)

2401_85773359的博客

07-26

1335

Transformer 通过其捕捉上下文和理解语言的能力，彻底改变了自然语言处理（NLP）领域。通过注意力机制、编码器-解码器架构和多头注意力，它们使得诸如机器翻译和情感分析等任务得以在前所未有的规模上实现。随着我们继续探索诸如 BERT 和 GPT 等模型，很明显，Transformer 处于语言理解和生成的前沿。它们对 NLP 的影响深远，而与 Transformer 一起的发现之旅将揭示出该领域更多令人瞩目的进展。

Transformer 详细分析，学习总结

qq_41158484的博客

11-15

1604

Transformer深度学习网络的详细分析。Transformer其实就是由融合了注意力机制的编码器和解码器组成，如下图Transformer的总体模型框架。编码器将输入的句子变成机器学习可以理解的特征向量，并输入到解码器中作为 Keys 和 Values（解码器就直接根据输入获取query，然后输出结果）。

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

大数据与人工智能

12-22

2326

点击上方“数据与智能”，“星标或置顶公众号”第一时间获取好内容作者 | xulu1352 目前在一家互联网公司从事推荐算法工作编辑 | lily0前序关于DSSM模型原理及实现，网上...

面试常问！ transformer中dk的大小，以及为什么设成这样，维度，原文分析。

qq_43572514的博客

08-27

698

算法面试常问题！transform的dk大小是多少，以及为什么怎么设，原本是怎么写的》？

Transformer详解

David's Notes

10-14

3009

文章目录12. Transformer12.1 Introduction12.2 在 Seq2Seq 架构中计算 Attention12.2.1 计算 Key k:ik_{:i}k:i 和 Query q:jq_{:j}q:j12.2.2 计算 α:j\alpha_{:j}α:j12.2.3 计算 Value v:iv_{:i}v:i12.2.4 千呼万唤始出来：计算 cjc_jcj12.3 Attention without RNN12.3.1 Attention 层12.3.1.1 计算 En

Transformer 中缩放点积注意力机制探讨：除以根号 dk 理由及其影响

进一步有进一步的欢喜~

01-09

1489

自2017年Transformer模型被提出以来，它迅速成为自然语言处理（NLP）领域的主流架构，并在各种任务中取得了卓越的表现。其核心组件之一是注意力机制，尤其是缩放点积注意力（Scaled Dot-Product Attention）。本文将深入探讨为什么在计算注意力分数时要除以d_k，以及如果使用不同的缩放因子会带来什么后果。

Transformer知识点总结

机器学习，深度学习

05-02

554

# 模型整体结构 ## 宏观理解 ## 微观拆解 ## 工作流程 # 模型结构拆解 ##任务场景及数据预处理 ## 输入部分

Transformer再出发

Enjoy_endless

04-18

1378

Google 2017年的论文 Attention is all you need 阐释了什么叫做大道至简！该论文提出了Transformer模型，完全基于Attention mechanism，抛弃了传统的RNN和CNN。我们根据论文的结构图，一步一步使用 PyTorch 实现这个Transformer模型。 Transformer架构首先看一下transformer的结构图：解释一下这...

transformer系列2---transformer架构详细解析

lansebingxuan的专栏

09-21

680

整数编码：用一种数字来代表一个词one-hot 编码：用一个序列向量表示一个词，该向量只有词汇表中表示这个单词的位置是1，其余都是0，序列向量长度是预定义的词汇表中单词数量。word embedding 词嵌入编码：将词映射或者嵌入（Embedding）到另一个数值向量空间（常常存在降维），它以one hot的稀疏矩阵为输入，经过一个线性变换（查表）将其转换成一个密集矩阵的过程。Embedding的原理是使用矩阵乘法来进行降维，节约存储空间。

Transformer详解+Transformer李沫视频笔记

qq_55736201的博客

11-11

937

为什么除以根号dk：dk小的时候除不除都无所谓，大的时候会导致点积后矩阵中的值差距比较大，然后通过softmax函数，接近一的值就会更加接近1，其余会更加接近0，值向两端靠拢，梯度变小，跑不动（softmax函数会使大的更大小的更小，如果值向两端靠拢非常接近0和1了，那么相当于网络收敛了，梯度就变小了）预测时候需要利用训练时候batch的均值和方差来计算预测时候的均值和方差，假如碰到特别长的样本，那么之前算的均值和方差就不好用了，所以在变长的应用中不使用batchnorm。

transformer模型中位置编码的理解