自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 理解掩码多头注意力机制与教师强制训练

摘要:掩码多头注意力机制通过上三角掩码矩阵屏蔽未来信息,确保序列生成时严格遵循时间顺序,解决并行计算与顺序生成的矛盾。教师强制训练则在解码器输入中右移正确答案,提供稳定学习环境,避免错误传播。两者配合实现:训练时并行处理带掩码的参考答案,推理时逐步自回归生成。核心在于掩码防止信息泄露,教师强制加速收敛,共同提升生成模型效果。

2025-10-13 23:59:30 817

原创 理解Transformer核心机制:自注意力、多头注意力、位置编码、层归一化

本文深入解析Transformer架构中的关键组件及其作用。自注意力机制使序列内部各位置相互关联,交叉注意力则实现跨序列信息交互。填充掩码确保模型忽略无效填充位置;位置编码通过正弦余弦函数注入序列顺序信息;多头注意力通过多组并行计算捕捉不同维度的关系;层归一化则通过标准化和缩放平移稳定深层网络训练。这些技术协同工作,使Transformer能够有效处理变长序列、理解语言结构,并支持深层网络的稳定训练,为现代大语言模型奠定了基础。

2025-10-13 00:08:34 267

原创 注意力机制

本文以图书馆查资料为例,生动解释了注意力机制中的QKV概念:Query(查询需求)、Key(资料索引)、Value(具体内容)。通过三步流程:1)计算查询与键的匹配分数;2)用Softmax归一化得到注意力权重;3)对值进行加权求和,最终生成融合多源信息的输出。文章详细说明了矩阵运算过程,并强调注意力机制的核心是生成所有输入的动态加权混合体,而非简单选择单一信息源。整个过程通过标量计算示例和公式推导,清晰展现了注意力权重的分配原理及其实现细节。

2025-10-11 01:10:45 1108

原创 Subword算法之WordPiece、Unigram与SentencePiece

本文深入探讨了三种Subword分词算法:WordPiece、Unigram和SentencePiece。WordPiece是BPE的变种,通过互信息选择合并,被BERT等模型采用;Unigram采用逆向思维,从大词表逐步删除低效子词;SentencePiece统一处理多语言文本,无需预分词。文章详细解析了各算法的训练流程、核心思想、优缺点及代码实现,并提供了选择建议:BPE/WordPiece适合通用场景,Unigram适用于概率化分词,SentencePiece擅长处理非空格分隔语言。通过技术对比和实例

2025-10-11 00:44:00 900

原创 Subword分词方法的BPE与BBPE

本文介绍了自然语言处理中的两种分词算法BPE和BBPE。BPE(字节对编码)通过迭代合并高频相邻字符对生成子词单元,平衡词表规模与OOV问题,适用于GPT等模型。BBPE(字节级BPE)在字节级别操作,天然支持多语言,彻底消除OOV问题,被GPT系列广泛采用。文章详细解析了两者的工作原理、训练流程、编码过程,并通过实例演示了算法步骤,比较了它们的优缺点及应用场景。BPE适合字符级处理,而BBPE基于字节操作,具有更强的泛化能力,是现代大语言模型的主流分词方案。

2025-10-09 20:10:26 1293

原创 手把手教你实现CIFAR-10图像分类(附完整代码)

本文介绍了使用PyTorch实现CIFAR-10图像分类任务的完整流程。主要内容包括:1. 数据获取与预处理(两种方式:手动下载或自动加载);2. 构建三层卷积神经网络模型(包含Conv2d、ReLU、MaxPool2d和Dropout层);3. 训练过程实现(使用Adam优化器和交叉熵损失函数);4. 模型评估方法(测试集准确率达72%)。文章还提供了详细的代码结构、性能优化建议(数据增强、学习率调度等)和常见问题解答,适合深度学习初学者参考实践。

2025-08-31 22:29:11 1271

原创 深度学习之卷积神经网络(二)

池化层 (Pooling) 降低空间维度, 缩减模型大小,提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样(SubSampling)处理。池化层主要有两种:最大池化 max pooling最大池化是从每个局部区域中选择最大值作为池化后的值,这样可以保留局部区域中最显著的特征。最大池化在提取图像中的纹理、形状等方面具有很好的效果。平均池化 avgPooling平均池化是将局部区域中的值取平均作为池化后的值,这样可以得到整体特征的平均值。

2025-08-30 23:10:53 829

原创 深度学习之卷积神经网络(一)

本文介绍了卷积神经网络(CNN)在计算机视觉领域的核心应用。首先分析了全连接神经网络处理图像时的局限性,包括参数量过大和特征表达能力有限。重点阐述了CNN的核心思想:通过局部连接和权重共享的卷积操作高效提取图像特征。详细讲解了卷积层的计算过程,包括卷积核、填充(padding)、步长(stride)、多通道计算等关键概念,并通过PyTorch代码示例展示了具体实现。最后指出CNN通过局部特征提取和参数共享,能够有效处理图像等具有空间结构的数据。

2025-08-30 22:43:36 855

原创 全连接神经网络实现手写数字识别

本文介绍了一个基于PyTorch的手写数字识别项目,使用MNIST数据集构建三层全连接神经网络。项目包含数据预处理、模型构建、训练优化和验证评估全流程。模型采用784-256-128-10的网络结构,使用批归一化和ReLU激活函数,通过Adam优化器训练,在5个epoch后达到97%以上的准确率。代码实现了数据自动下载、标准化预处理、训练验证分离以及单张图片预测功能,体现了深度学习项目的基本流程和PyTorch的核心用法,可作为图像分类任务的入门示例。

2025-08-29 23:26:16 1392

原创 深度学习之全连接神经网络(六)

批量标准化(Batch Normalization)是一种用于加速神经网络训练的正则化技术,通过对每层输入进行标准化处理来缓解梯度消失/爆炸问题,提高模型稳定性和泛化能力。文章详细介绍了BN的原理、计算公式、训练与测试阶段的差异(使用EMA更新全局统计量),并对比了带BN和不带BN的模型训练效果。此外,还讲解了PyTorch中模型的保存与加载方法,包括完整模型序列化和仅保存参数两种方式,并提供了保存优化器状态、准确率等额外信息的示例代码。最后强调技术交流的重要性,鼓励读者参与讨论补充细节。

2025-08-29 22:36:54 1090

原创 深度学习之全连接神经网络(五)

本文介绍了深度学习中常见的过拟合和欠拟合问题及其解决方法。过拟合指模型在训练集表现好但测试集差,常因数据不足或模型复杂导致;欠拟合则是模型无法捕捉数据规律。文章详细讲解了L1/L2正则化技术,包括数学原理、梯度更新和作用机制,L2通过惩罚大权重防止过拟合,L1则能产生稀疏模型。此外还介绍了Dropout和数据增强技术,通过随机丢弃神经元或变换训练数据提升泛化能力。最后给出了PyTorch实现代码,包括数据增强的常见操作如裁剪、翻转、颜色调整等。这些方法能有效提升模型性能,是深度学习中的重要技术。

2025-08-28 22:34:43 1149

原创 深度学习之全连接神经网络(四)

反向传播(BP)算法是神经网络训练的核心方法,通过计算损失函数对权重的梯度来优化网络参数。文章系统介绍了BP算法的关键组成部分:前向传播过程计算网络输出和损失;三种梯度下降方式(BGD/SGD/MBGD)及其特点;常见的优化算法改进,包括Momentum通过历史梯度积累加速收敛,AdaGrad自适应调整学习率但存在衰减问题,RMSProp引入指数加权平均解决衰减问题,以及综合动量与自适应学习率的Adam算法。这些优化方法各具特点,其中Adam以其稳定性和高效性成为当前最流行的选择。文章通过数学公式和代码示例

2025-08-28 22:25:30 1223

原创 深度学习之全连接神经网络(三)

神经网络参数初始化方法及损失函数摘要 本文系统介绍了神经网络参数初始化的关键方法及其影响。固定值初始化(全零、全一、常数)会导致对称性问题,不推荐使用。随机初始化(均匀/正态分布)是基础方法。Xavier初始化根据输入输出维度调整权重,适合Sigmoid/Tanh激活函数。He初始化专为ReLU设计,采用√(2/n_in)的方差。损失函数部分详解了MAE、MSE、交叉熵和二分类交叉熵的原理及适用场景,其中交叉熵损失包含Log-Softmax和NLLLoss两步计算。PyTorch实现展示了不同初始化方法和损

2025-08-27 22:02:44 1213 1

原创 深度学习之全连接神经网络(二)

本文介绍了神经网络数据准备与激活函数相关知识。在数据准备部分,详细讲解了PyTorch中Dataset和TensorDataset的使用方法,以及如何构建DataLoader实现批量数据加载。在激活函数部分,重点分析了sigmoid、tanh、ReLU、LeakyReLU和softmax等常用激活函数的特性、优缺点及适用场景,并通过代码实现了函数可视化。最后给出了激活函数的选择建议:隐藏层优先使用ReLU,输出层根据任务类型选择sigmoid(二分类)或softmax(多分类)。这些内容为构建和训练神经网络

2025-08-27 20:27:54 1230

原创 深度学习之全连接神经网络(一)

本文介绍了神经网络的基本概念与结构,重点讲解了人工神经元的组成和数学表示方式。神经网络由输入层、隐藏层和输出层构成,通过全连接层实现信息传递。文中详细阐述了PyTorch中实现神经网络的组件:线性层(nn.Linear)、激活函数(sigmoid/ReLU等)、损失函数(MSELoss/CrossEntropyLoss等)和优化器(SGD/Adam等),并给出了使用nn.Sequential构建全连接网络的代码示例。这些组件共同构成了深度学习模型的基础框架,为后续模型训练和优化提供了必要工具。

2025-08-26 22:24:09 927

原创 深入学习入门之torch(二)

本文介绍了PyTorch中Tensor的核心操作和自动微分机制。主要内容包括: Tensor形状操作:详细讲解了reshape、view、transpose、permute等方法的使用场景和区别,以及升维(unsqueeze)和降维(squeeze)操作。 广播机制:阐述了PyTorch中张量计算的广播规则,通过案例展示了不同维度张量间的自动扩展计算。 自动微分:深入解析了PyTorch的自动求导原理,包括计算图构建、叶子节点概念、反向传播过程,以及梯度计算和控制方法。 实践案例:通过函数最小化和线性回归两

2025-08-26 17:31:22 1040

原创 深度学习入门之Torch(一)

PyTorch是主流的深度学习框架,由Facebook开发,广泛应用于计算机视觉、自然语言处理等领域。其核心数据结构是张量(Tensor),支持动态计算图、GPU加速和自动微分。文章详细介绍了张量的概念、创建方法(包括随机张量)、常见属性(如数据类型、形状)及设备切换(CPU/GPU)。此外,还讲解了张量与NumPy数组的转换(区分内存共享与不共享)、常见运算(元素级运算、矩阵乘法)以及类型转换等操作。本文为PyTorch初学者提供了全面的张量操作指南,适合快速掌握深度学习基本工具。

2025-08-25 18:44:55 1601

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除