红纸281-优快云博客

原创理解掩码多头注意力机制与教师强制训练

摘要：掩码多头注意力机制通过上三角掩码矩阵屏蔽未来信息，确保序列生成时严格遵循时间顺序，解决并行计算与顺序生成的矛盾。教师强制训练则在解码器输入中右移正确答案，提供稳定学习环境，避免错误传播。两者配合实现：训练时并行处理带掩码的参考答案，推理时逐步自回归生成。核心在于掩码防止信息泄露，教师强制加速收敛，共同提升生成模型效果。

2025-10-13 23:59:30 817

原创理解Transformer核心机制：自注意力、多头注意力、位置编码、层归一化

本文深入解析Transformer架构中的关键组件及其作用。自注意力机制使序列内部各位置相互关联，交叉注意力则实现跨序列信息交互。填充掩码确保模型忽略无效填充位置；位置编码通过正弦余弦函数注入序列顺序信息；多头注意力通过多组并行计算捕捉不同维度的关系；层归一化则通过标准化和缩放平移稳定深层网络训练。这些技术协同工作，使Transformer能够有效处理变长序列、理解语言结构，并支持深层网络的稳定训练，为现代大语言模型奠定了基础。

2025-10-13 00:08:34 267

原创注意力机制

本文以图书馆查资料为例，生动解释了注意力机制中的QKV概念：Query（查询需求）、Key（资料索引）、Value（具体内容）。通过三步流程：1）计算查询与键的匹配分数；2）用Softmax归一化得到注意力权重；3）对值进行加权求和，最终生成融合多源信息的输出。文章详细说明了矩阵运算过程，并强调注意力机制的核心是生成所有输入的动态加权混合体，而非简单选择单一信息源。整个过程通过标量计算示例和公式推导，清晰展现了注意力权重的分配原理及其实现细节。

2025-10-11 01:10:45 1108

原创 Subword算法之WordPiece、Unigram与SentencePiece

本文深入探讨了三种Subword分词算法：WordPiece、Unigram和SentencePiece。WordPiece是BPE的变种，通过互信息选择合并，被BERT等模型采用；Unigram采用逆向思维，从大词表逐步删除低效子词；SentencePiece统一处理多语言文本，无需预分词。文章详细解析了各算法的训练流程、核心思想、优缺点及代码实现，并提供了选择建议：BPE/WordPiece适合通用场景，Unigram适用于概率化分词，SentencePiece擅长处理非空格分隔语言。通过技术对比和实例

2025-10-11 00:44:00 900

原创 Subword分词方法的BPE与BBPE

本文介绍了自然语言处理中的两种分词算法BPE和BBPE。BPE（字节对编码）通过迭代合并高频相邻字符对生成子词单元，平衡词表规模与OOV问题，适用于GPT等模型。BBPE（字节级BPE）在字节级别操作，天然支持多语言，彻底消除OOV问题，被GPT系列广泛采用。文章详细解析了两者的工作原理、训练流程、编码过程，并通过实例演示了算法步骤，比较了它们的优缺点及应用场景。BPE适合字符级处理，而BBPE基于字节操作，具有更强的泛化能力，是现代大语言模型的主流分词方案。

2025-10-09 20:10:26 1293

原创手把手教你实现CIFAR-10图像分类（附完整代码）

本文介绍了使用PyTorch实现CIFAR-10图像分类任务的完整流程。主要内容包括：1. 数据获取与预处理（两种方式：手动下载或自动加载）；2. 构建三层卷积神经网络模型（包含Conv2d、ReLU、MaxPool2d和Dropout层）；3. 训练过程实现（使用Adam优化器和交叉熵损失函数）；4. 模型评估方法（测试集准确率达72%）。文章还提供了详细的代码结构、性能优化建议（数据增强、学习率调度等）和常见问题解答，适合深度学习初学者参考实践。

2025-08-31 22:29:11 1271

原创深度学习之卷积神经网络（二）

池化层 (Pooling) 降低空间维度, 缩减模型大小，提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样（SubSampling）处理。池化层主要有两种:最大池化 max pooling最大池化是从每个局部区域中选择最大值作为池化后的值，这样可以保留局部区域中最显著的特征。最大池化在提取图像中的纹理、形状等方面具有很好的效果。平均池化 avgPooling平均池化是将局部区域中的值取平均作为池化后的值，这样可以得到整体特征的平均值。

2025-08-30 23:10:53 829

原创深度学习之卷积神经网络（一）

本文介绍了卷积神经网络(CNN)在计算机视觉领域的核心应用。首先分析了全连接神经网络处理图像时的局限性，包括参数量过大和特征表达能力有限。重点阐述了CNN的核心思想：通过局部连接和权重共享的卷积操作高效提取图像特征。详细讲解了卷积层的计算过程，包括卷积核、填充(padding)、步长(stride)、多通道计算等关键概念，并通过PyTorch代码示例展示了具体实现。最后指出CNN通过局部特征提取和参数共享，能够有效处理图像等具有空间结构的数据。

2025-08-30 22:43:36 855

原创全连接神经网络实现手写数字识别

本文介绍了一个基于PyTorch的手写数字识别项目，使用MNIST数据集构建三层全连接神经网络。项目包含数据预处理、模型构建、训练优化和验证评估全流程。模型采用784-256-128-10的网络结构，使用批归一化和ReLU激活函数，通过Adam优化器训练，在5个epoch后达到97%以上的准确率。代码实现了数据自动下载、标准化预处理、训练验证分离以及单张图片预测功能，体现了深度学习项目的基本流程和PyTorch的核心用法，可作为图像分类任务的入门示例。

2025-08-29 23:26:16 1392

原创深度学习之全连接神经网络（六）

批量标准化（Batch Normalization）是一种用于加速神经网络训练的正则化技术，通过对每层输入进行标准化处理来缓解梯度消失/爆炸问题，提高模型稳定性和泛化能力。文章详细介绍了BN的原理、计算公式、训练与测试阶段的差异（使用EMA更新全局统计量），并对比了带BN和不带BN的模型训练效果。此外，还讲解了PyTorch中模型的保存与加载方法，包括完整模型序列化和仅保存参数两种方式，并提供了保存优化器状态、准确率等额外信息的示例代码。最后强调技术交流的重要性，鼓励读者参与讨论补充细节。

2025-08-29 22:36:54 1090

原创深度学习之全连接神经网络（五）

本文介绍了深度学习中常见的过拟合和欠拟合问题及其解决方法。过拟合指模型在训练集表现好但测试集差，常因数据不足或模型复杂导致；欠拟合则是模型无法捕捉数据规律。文章详细讲解了L1/L2正则化技术，包括数学原理、梯度更新和作用机制，L2通过惩罚大权重防止过拟合，L1则能产生稀疏模型。此外还介绍了Dropout和数据增强技术，通过随机丢弃神经元或变换训练数据提升泛化能力。最后给出了PyTorch实现代码，包括数据增强的常见操作如裁剪、翻转、颜色调整等。这些方法能有效提升模型性能，是深度学习中的重要技术。

2025-08-28 22:34:43 1149

原创深度学习之全连接神经网络（四）

反向传播(BP)算法是神经网络训练的核心方法，通过计算损失函数对权重的梯度来优化网络参数。文章系统介绍了BP算法的关键组成部分：前向传播过程计算网络输出和损失；三种梯度下降方式(BGD/SGD/MBGD)及其特点；常见的优化算法改进，包括Momentum通过历史梯度积累加速收敛，AdaGrad自适应调整学习率但存在衰减问题，RMSProp引入指数加权平均解决衰减问题，以及综合动量与自适应学习率的Adam算法。这些优化方法各具特点，其中Adam以其稳定性和高效性成为当前最流行的选择。文章通过数学公式和代码示例

2025-08-28 22:25:30 1223

原创深度学习之全连接神经网络（三）

神经网络参数初始化方法及损失函数摘要本文系统介绍了神经网络参数初始化的关键方法及其影响。固定值初始化（全零、全一、常数）会导致对称性问题，不推荐使用。随机初始化（均匀/正态分布）是基础方法。Xavier初始化根据输入输出维度调整权重，适合Sigmoid/Tanh激活函数。He初始化专为ReLU设计，采用√(2/n_in)的方差。损失函数部分详解了MAE、MSE、交叉熵和二分类交叉熵的原理及适用场景，其中交叉熵损失包含Log-Softmax和NLLLoss两步计算。PyTorch实现展示了不同初始化方法和损

2025-08-27 22:02:44 1213 1

原创深度学习之全连接神经网络（二）

本文介绍了神经网络数据准备与激活函数相关知识。在数据准备部分，详细讲解了PyTorch中Dataset和TensorDataset的使用方法，以及如何构建DataLoader实现批量数据加载。在激活函数部分，重点分析了sigmoid、tanh、ReLU、LeakyReLU和softmax等常用激活函数的特性、优缺点及适用场景，并通过代码实现了函数可视化。最后给出了激活函数的选择建议：隐藏层优先使用ReLU，输出层根据任务类型选择sigmoid（二分类）或softmax（多分类）。这些内容为构建和训练神经网络

2025-08-27 20:27:54 1230

原创深度学习之全连接神经网络（一）

本文介绍了神经网络的基本概念与结构，重点讲解了人工神经元的组成和数学表示方式。神经网络由输入层、隐藏层和输出层构成，通过全连接层实现信息传递。文中详细阐述了PyTorch中实现神经网络的组件：线性层(nn.Linear)、激活函数(sigmoid/ReLU等)、损失函数(MSELoss/CrossEntropyLoss等)和优化器(SGD/Adam等)，并给出了使用nn.Sequential构建全连接网络的代码示例。这些组件共同构成了深度学习模型的基础框架，为后续模型训练和优化提供了必要工具。

2025-08-26 22:24:09 927

原创深入学习入门之torch（二）

本文介绍了PyTorch中Tensor的核心操作和自动微分机制。主要内容包括： Tensor形状操作：详细讲解了reshape、view、transpose、permute等方法的使用场景和区别，以及升维(unsqueeze)和降维(squeeze)操作。广播机制：阐述了PyTorch中张量计算的广播规则，通过案例展示了不同维度张量间的自动扩展计算。自动微分：深入解析了PyTorch的自动求导原理，包括计算图构建、叶子节点概念、反向传播过程，以及梯度计算和控制方法。实践案例：通过函数最小化和线性回归两

2025-08-26 17:31:22 1040

原创深度学习入门之Torch（一）

PyTorch是主流的深度学习框架，由Facebook开发，广泛应用于计算机视觉、自然语言处理等领域。其核心数据结构是张量（Tensor），支持动态计算图、GPU加速和自动微分。文章详细介绍了张量的概念、创建方法（包括随机张量）、常见属性（如数据类型、形状）及设备切换（CPU/GPU）。此外，还讲解了张量与NumPy数组的转换（区分内存共享与不共享）、常见运算（元素级运算、矩阵乘法）以及类型转换等操作。本文为PyTorch初学者提供了全面的张量操作指南，适合快速掌握深度学习基本工具。

2025-08-25 18:44:55 1601

printf_huf的博客