- 博客(35)
- 收藏
- 关注
原创 Transformer 中的残差连接:为什么在正则化前加入残差?
残差连接,也叫跳跃连接,是一种让输入直接流向输出的结构,最早用于 ResNet 网络,目的是解决深层神经网络中的梯度消失和梯度爆炸问题。深层网络训练时,随着网络层数增加,梯度可能会逐渐减小(消失)或急剧增大(爆炸),导致训练变得非常困难。在 Transformer 中,残差连接也起到了类似的作用——帮助信息直接流向后续层,确保模型学习过程更稳定。残差连接让输入信息直接传递到输出,增强模型稳定性,避免梯度消失问题。残差连接后正则化能平滑输出,防止累积导致的数值不稳定,让输出在深层结构中保持分布一致。
2024-11-09 09:02:03
752
原创 深入解析 Transformer 模型:编码器和解码器的完整实现
我们完成了 Transformer 模型中编码器和解码器的构建,并将它们组合成完整的模型。编码器负责将输入序列转化为高维特征,解码器在生成每个目标词时参考编码器输出,从而生成语义一致的输出序列。了解 Transformer 的内部结构有助于我们进一步优化模型,适用于各种 NLP 任务,如机器翻译和文本生成等。希望本文能帮助你理解 Transformer 编码器和解码器的核心设计和实现流程。
2024-11-06 21:27:54
1796
原创 深入解析 Transformer 解码器:核心模块和代码实现详解
通过实现和逐步分析 Transformer 解码器模块,我们可以看到它是如何结合编码器输出,在生成目标序列时保持语义和上下文一致的。希望本文能帮助你理解解码器的实现过程。后续内容可以深入研究完整的 Transformer 模型搭建,包括编码器与解码器的组合。
2024-11-06 21:26:46
1455
原创 理解 Transformer 中的编码器-解码器注意力层(Encoder-Decoder Attention Layer)
编码器-解码器注意力层在 Transformer 中的核心作用是让解码器在生成每个词时都能“回看”编码器的输出,从而确保输出内容准确、连贯。这种结构在机器翻译中尤为关键,因为它帮助模型根据输入语句的上下文生成合理的输出。希望这篇文章帮你更好地理解了编码器-解码器注意力层的工作原理和代码实现!如果有疑问,欢迎留言讨论!
2024-11-06 21:25:19
942
原创 打造完整 Transformer 编码器:逐步实现高效深度学习模块
在深入理解了编码器块的核心结构后,下一步就是实现一个。该编码器将输入序列转换为高级语义向量,并为后续的解码或其他任务模块提供高质量的特征表示。今天我们将详细解析编码器的每一部分,并附上代码示例,助你轻松掌握 Transformer 的编码器构建。
2024-11-06 21:19:58
925
原创 深入解读 Transformer 编码器中的嵌入与位置编码
定义词汇表大小,表示模型可处理的词汇数量。:将词汇索引转化为连续向量,为模型提供词汇的语义表示。:为每个词向量加上位置信息,使模型能够捕捉序列中的词序关系。通过这些模块的结合,模型不仅能够理解词汇语义,还能识别词汇的相对位置,为后续的编码过程奠定基础。如果你对 Transformer 编码器或其他部分有进一步兴趣,欢迎继续探索或留言讨论!
2024-11-06 21:18:12
1289
原创 为什么 Transformer 需要位置编码?揭开位置编码的奥秘
位置编码的核心作用:帮助 Transformer 模型识别词语的顺序,避免无序问题。正弦和余弦的使用:提供平滑的、周期性的编码,适合捕捉相对位置关系。代码实现:通过简单的 PyTorch 代码构建位置编码并将其加到输入向量上。位置编码让 Transformer 能捕捉到句子中的顺序信息,是其能够成功应用于自然语言处理任务的关键。希望通过这篇文章,你能对位置编码的原理与实现有更清晰的理解!如果还有其他问题,欢迎留言讨论!
2024-11-06 21:15:58
1109
原创 深度学习中的 Dropout:原理、公式与实现解析
Dropout是一种防止过拟合的正则化方法,通过随机丢弃神经元来提升模型的泛化能力。在训练时,随机丢弃神经元并缩放剩余神经元的输出。在推理时,直接缩放整个输出,以保持训练和推理的分布一致。希望这篇文章能帮助你理解Dropout的工作原理和实现过程。如果有任何疑问,欢迎留言讨论!
2024-11-06 21:14:51
2878
3
原创 Transformer 中的残差连接:为什么在正则化前加入残差?
残差连接,也叫跳跃连接,是一种让输入直接流向输出的结构,最早用于 ResNet 网络,目的是解决深层神经网络中的梯度消失和梯度爆炸问题。深层网络训练时,随着网络层数增加,梯度可能会逐渐减小(消失)或急剧增大(爆炸),导致训练变得非常困难。在 Transformer 中,残差连接也起到了类似的作用——帮助信息直接流向后续层,确保模型学习过程更稳定。残差连接让输入信息直接传递到输出,增强模型稳定性,避免梯度消失问题。残差连接后正则化能平滑输出,防止累积导致的数值不稳定,让输出在深层结构中保持分布一致。
2024-11-06 21:11:55
984
原创 深度学习中的 Layer Normalization:轻松搞懂原理和实现
Layer Normalization 是一种正则化方法,它会对每一层的输出进行归一化,确保数据在均值为 0、方差为 1 的范围内。这种稳定的数据分布帮助模型层与层之间的信息流更加平滑,从而提升训练效率和稳定性。LayerNorm 是一种层级正则化方法,对每个样本的特征维度进行标准化。gamma和beta提供了灵活的缩放和平移能力,使得 LayerNorm 不仅限于标准化,还能适应不同的数据分布。自己实现 LayerNorm 可以帮助更好地理解其原理和计算流程。
2024-11-06 20:04:09
1832
4
原创 多头注意力中的 `fc_out` 层:为什么要加它?带你彻底搞懂多头注意力机制
虽然fc_out整合多个头的信息:帮助模型更好地组合和理解不同头的输出,使得输出信息更加全面。提升模型的表达能力:通过线性变换,让模型能够对各个头的特征进行优化组合,提升输出的表达力。保持残差连接的维度一致:确保与 Transformer 的设计一致,方便残差连接操作,确保模型的稳定性和效果。希望通过这篇文章的讲解,能帮助你彻底理解fc_out的重要性!如果还有其他疑问,欢迎留言讨论!
2024-11-06 20:02:57
700
原创 深度学习中的多头注意力机制:原理与实现解析
多头注意力是对单头注意力的扩展,可以让模型从多个角度捕获输入序列中的复杂关系。每个头独立生成 Q、K、V,并通过点积计算相似度,从而获得多样化的上下文信息。多头注意力在自然语言处理和计算机视觉任务中广泛应用,有助于模型更全面地理解输入数据。希望通过这篇文章的讲解与代码示例,能帮助你理解多头注意力的原理与实现。如果有任何疑问,欢迎留言讨论!
2024-11-06 19:59:45
1193
原创 深入解析 Transformer 编码器块(EncoderBlock):逐行拆解核心代码!
定义了一个 Transformer 的编码器块。它继承自nn.Module,是 PyTorch 中神经网络模块的基类,便于模型的搭建和训练。LayerNorm对每层输出进行归一化,让输出保持稳定的数值分布。这是为了解决梯度爆炸或梯度消失问题,确保模型更容易收敛。forward()定义了数据在编码器块内的流动路径。x:输入张量,形状为。mask:掩码,用于忽略填充词等不相关部分,让模型只关注实际内容。
2024-11-06 19:58:23
1289
原创 通俗解读 Transformer 模型:一步步理解编码器和解码器的结构
编码器:负责将原文转换为有用的内部表示(向量)。解码器:根据这些向量逐步生成译文。自注意力:帮助模型从句子中找到重要内容。编码器-解码器注意力:让解码器从原句中找到生成译文时需要参考的部分。通过这些结构和层次的搭配,Transformer 模型能够高效地处理复杂的自然语言任务,如机器翻译和文本生成等。
2024-11-06 19:56:21
870
原创 python print常见用法
print是一个非常常用的函数,用于将输出打印到控制台。它功能强大,支持多种格式化方式和参数,下面详细介绍 Python 中。函数非常灵活,可以根据实际需要通过参数、格式化方法、文件输出等功能来实现丰富的打印效果。默认是带有缓冲的,即输出内容会暂时存储在内存中,然后再一次性输出到目的地。默认将输出发送到标准输出(通常是控制台),但你也可以通过。这个例子会立即输出每个数字,并在每次输出后暂停 1 秒。默认使用空格作为多个值之间的分隔符,可以通过。会在输出的末尾自动添加一个换行符,可以通过。
2024-10-28 01:30:00
1822
原创 从零开始学Pandas:数据分析必备技能速成
在 Pandas 中,Series和DataFrame是核心数据结构。Series是一维数组,包含数据和索引,适合存储单列数据,如数值或字符串。DataFrame是二维表格,由多个Series组成,每列是一个Series,具有共享的行索引,适合处理多列数据,如表格或数据库结构。DataFrame是Series的集合,每列都是一个Series对象。例如,DataFrame中可以通过列名提取Series,也可以将多个Series合并成一个DataFrame。因此,Series是构成DataFrame的基础。
2024-10-27 20:16:10
2382
原创 电力电子器件
(1)按被控制电路控制电路信号所控制的程度(2)按驱动信号性质(3)按照驱动信号的波形(电力二极管除外)(4)按照载流子参与导电的情况。
2024-10-17 06:30:00
1164
原创 蓝桥板DS18B20
DS18B20 的温度测量范围是 从-55 度到+125 度,而温度数据的表现形式,有正负温度,寄存器中每个数字如同卡尺的刻度一样分布,如图 3 所示。当 0 度的时候,那就是 0x0000,当温度 125 度的时候,对应十六进制是 0x07D0,当温度是零下 55 度的时候,对应的数字是0xFC90。比赛时官方会提供我们驱动文件,里面包含了初始化DS18B20,写入一个字节,读取一个字节的函数,这样可以节省时间,比赛中也很少自己手敲时序函数,但官方的时序有点问题,这里我们稍微进行下修改。
2024-10-13 18:30:18
2019
原创 VSCode连接Docker容器并在基础镜像上快速搭建深度学习环境的实用指南
vscode 连接基础镜像创建的容器,在容器中部署深度学习环境 pytorch-cuda,能够运行代码并正常使用cuda加速,使用docker commit打包成新镜像,新镜像保留原来的深度学习环境
2024-10-13 15:57:50
2075
原创 Windows平台下使用DockerFile构建深度学习基础镜像的详细教程
在windows平台下,在docker desktop平台上用DockerFile来构建基础深度学习镜像
2024-10-13 12:02:42
1954
pandas.zip 包含jupyter notebook代码 还有准备好的csv文件用于学习
2024-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人