
PyTorch深度学习
文章平均质量分 97
深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。本专栏讲解基于PyTorch的深度学习算法,参考《动手学深度学习PyTorch版》。
Francek Chen
征途漫漫,惟有奋斗!优快云大数据领域优质创作者,2024博客之星TOP47,阿里云社区专家博主,华为云云享专家。商务合作+V:Cheneycap01。热爱学习大数据与人工智能的相关知识,专注Hadoop、Spark实战,打造了《大数据技术基础》《Python机器学习》等热门专栏,助力行业技术落地。多篇热文登榜TOP,开源项目解析广受好评。以代码为笔,记录成长;以博客为媒,传递价值。关注我,一起畅游于数据变化的世界中,发现更多精彩~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【深度学习优化算法】11:学习率调度器
本文讲解深度学习优化算法中的学学率调度器。学习率管理对模型优化至关重要,涉及大小、衰减速率、初始化及预热等方面。通过调度策略如余弦调度和预热期,可有效提升模型训练效果,防止发散并加速收敛。原创 2025-08-04 08:30:00 · 476 阅读 · 9 评论 -
【深度学习优化算法】10:Adam算法
本文讲解深度学习优化算法中的Adam算法。Adam算法汇总多种优化技术,使用指数加权移动平均估算梯度动量和二次矩,但可能因方差控制不良发散。Yogi算法改进了Adam的二次矩估计更新,解决了可能无法收敛的问题。展示了Adam和Yogi算法的代码实现及训练效果。原创 2025-07-28 12:46:20 · 1959 阅读 · 55 评论 -
【深度学习优化算法】09:Adadelta算法
本文讲解深度学习优化算法中的Adadelta算法。Adadelta算法使用参数本身的变化率来调整学习率。Adadelta需要两个状态变量来存储梯度的二阶导数和参数的变化。Adadelta使用泄漏的平均值来保持对适当统计数据的运行估计。原创 2025-07-25 08:30:00 · 2461 阅读 · 55 评论 -
【深度学习优化算法】08:RMSProp算法
本文讲解深度学习优化算法的RMSProp算法。与Adagrad算法非常相似,因为两者都使用梯度的平方来缩放系数。RMSProp算法与动量法都使用泄漏平均值。但是,RMSProp算法使用该技术来调整按系数顺序的预处理器。原创 2025-07-21 09:00:00 · 1334 阅读 · 46 评论 -
【深度学习优化算法】07:AdaGrad算法
本文讲解AdaGrad算法。通过记录特征出现次数或梯度平方和调整学习率,还探讨凸优化预处理及算法实现,包括从零实现与简洁实现,展示了其在优化中的效果。原创 2025-07-18 09:00:00 · 1192 阅读 · 42 评论 -
【深度学习优化算法】06:动量法
本文探讨更高效优化算法,重点介绍了泄漏平均值(动量)方法,通过累加过去梯度减小方差,提高收敛性。还分析了条件不佳问题,通过数学推导和实例展示了动量法在优化中的优势,包括扩大学习率范围,提高参数适应性,加速收敛。原创 2025-07-15 21:02:34 · 1146 阅读 · 45 评论 -
【深度学习优化算法】05:小批量随机梯度下降
本文讲解梯度下降与随机梯度下降的极端情况,引出小批量随机梯度下降作为折中方案。通过实践分析向量化与缓存对计算效率的影响,对比不同批量大小的性能,并展示了使用深度学习框架的简洁实现方式,强调了小批量随机梯度下降在收敛速度和计算效率上的平衡。原创 2025-07-08 08:30:00 · 1273 阅读 · 45 评论 -
【深度学习优化算法】04:随机梯度下降
本文讲解随机梯度下降通过随机采样降低计算代价至O(1),但受梯度随机性影响轨迹嘈杂。动态调整学习率可缓解此问题,实践中采用无替换采样遍历数据,以不同随机顺序提高数据效率,按O(1/√T)速度收敛至最优解。原创 2025-07-04 21:34:59 · 1373 阅读 · 46 评论 -
【深度学习优化算法】03:梯度下降
本文讲解梯度下降优化目标函数,关键在于学习率选择,过大会发散,过小会无进展,可能陷入局部极小值,高维模型中调整学习率复杂,预处理有助于调节。原创 2025-06-23 08:00:00 · 1114 阅读 · 54 评论 -
【深度学习优化算法】02:凸性
本节讲解了凸函数,目的是帮助我们详细了解优化算法。凸函数的下水平集是凸的。这一性质不仅在数学上具有重要意义,而且在优化问题和机器学习领域也有广泛的应用。通过理解和利用这一性质,我们可以更好地解决实际问题并设计出更高效的算法。原创 2025-06-04 09:26:32 · 2023 阅读 · 85 评论 -
【深度学习优化算法】01:优化和深度学习
本文讲解深度学习优化。深度学习优化旨在最小化损失函数(训练误差),但核心挑战在于平衡训练与泛化误差。优化过程面临三大障碍:局部最小值、鞍点、梯度消失,激活函数饱和区域导致优化停滞,需结合优化算法与正则化策略应对过拟合。原创 2025-05-30 11:50:12 · 1487 阅读 · 67 评论 -
【现代深度学习技术】注意力机制07:Transformer
Transformer基于自注意力和位置编码,采用编码器-解码器架构。编码器和解码器通过堆叠多头注意力层和前馈网络构成,利用残差连接和层规范化提升训练效果,在并行计算和短依赖路径优势下,广泛应用于序列任务如机器翻译。原创 2025-05-15 10:00:36 · 2722 阅读 · 76 评论 -
【现代深度学习技术】注意力机制06:自注意力和位置编码
本文讲解自注意力和位置编码。自注意力通过并行处理全局依赖,结合正弦/余弦位置编码注入序列位置信息,虽计算复杂度高,但路径短,克服了RNN/CNN的顺序限制,有效捕获长距离关系。原创 2025-05-12 09:19:53 · 1370 阅读 · 50 评论 -
【现代深度学习技术】注意力机制05:多头注意力
本文讲解注意力机制的多头注意力。通过并行学习多组线性投影,将查询、键和值映射到不同子空间,每个头独立计算注意力后拼接结果,再经线性变换融合不同关注模式,从而捕捉序列中多样化的依赖关系。原创 2025-05-12 08:56:09 · 1793 阅读 · 51 评论 -
【现代深度学习技术】注意力机制04:Bahdanau注意力
本文讲解注意力机制中的Bahdanau注意力。Bahdanau注意力机制通过动态调整上下文变量,在解码时使用加性注意力聚焦编码器隐状态的相关部分,替代固定上下文,提升机器翻译的准确性和对齐效果。原创 2025-05-10 09:04:36 · 1374 阅读 · 49 评论 -
【现代深度学习技术】注意力机制03:注意力评分函数
本文讲解注意力评分函数。加性注意力通过MLP处理不同长度查询键,缩放点积注意力利用点积和√d缩放提升效率。掩蔽softmax过滤无效位置,结合加权值实现注意力汇聚,代码演示权重分布,为复杂模型奠定基础。原创 2025-05-09 21:59:45 · 1440 阅读 · 33 评论 -
【现代深度学习技术】注意力机制02:注意力汇聚:Nadaraya-Watson核回归
本节通过Nadaraya-Watson核回归演示注意力机制:首先生成非线性数据集,对比平均汇聚的局限性;引入非参数注意力模型,使用高斯核计算权重实现平滑预测;扩展为带参数模型,通过可学习权重调整注意力分布,但可能过拟合导致预测波动。实验显示参数模型注意力权重更集中但预测欠平滑。原创 2025-05-07 10:42:36 · 1132 阅读 · 44 评论 -
【现代深度学习技术】注意力机制01:注意力提示
本文讲解注意力机制中的注意力提示。注意力是稀缺资源,通过自主(查询)与非自主(键)提示引导,机制将感官输入(值)加权汇聚,热图可视化权重分配。原创 2025-05-06 09:42:30 · 1241 阅读 · 57 评论 -
【现代深度学习技术】现代循环神经网络08:束搜索
本文讲解现代循环神经网络中的束搜索。贪心搜索逐步选最高概率词元,可能非全局最优;穷举搜索遍历所有组合,计算成本过高;束搜索维护k个候选序列,平衡效率与精度,通过评分公式优选最佳输出。原创 2025-05-05 11:02:49 · 1115 阅读 · 36 评论 -
【现代深度学习技术】现代循环神经网络07:序列到序列学习(seq2seq)
本文讲解现代循环神经网络中的序列到序列学习。seq2seq模型采用RNN编码器将变长序列编码为隐状态,解码器基于隐状态逐步生成输出。训练时使用遮蔽损失忽略填充词元,BLEU评估翻译质量。应用于机器翻译,通过教师强制策略训练,预测时逐词生成并用注意力机制优化结果。原创 2025-05-05 10:24:21 · 2055 阅读 · 49 评论 -
【现代深度学习技术】现代循环神经网络06:编码器-解码器架构
本文讲解现代循环神经网络的“编码器-解码器”架构。“编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问题。将长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。将具有固定形状的编码状态映射为长度可变的序列。原创 2025-05-04 12:18:18 · 1982 阅读 · 32 评论 -
【现代深度学习技术】现代循环神经网络05:机器翻译与数据集
本文讲解现代循环神经网络地机器翻译与数据集。机器翻译指的是将文本序列从一种语言自动翻译成另一种语言。使用单词级词元化时的词表大小,将明显大于使用字符级词元化时的词表大小。为了缓解这一问题,我们可以将低频词元视为相同的未知词元。通过截断和填充文本序列,可以保证所有的文本序列都具有相同的长度,以便以小批量的方式加载。原创 2025-05-04 12:06:22 · 1377 阅读 · 37 评论 -
【现代深度学习技术】现代循环神经网络04:双向循环神经网络
本文讲解了双向循环神经网络。从序列学习扩展场景切入,详述隐马尔可夫模型动态规划解法,引申双向循环神经网络架构、定义、计算代价、典型应用,并给出错误应用示例与风险警示,凸显实践要点。原创 2025-05-03 08:00:00 · 1877 阅读 · 42 评论 -
【现代深度学习技术】现代循环神经网络03:深度循环神经网络
本文讲解深度循环神经网络。通过堆叠多个隐藏层增强表达能力,每层隐状态传递至下一时间步和相邻层,使用激活函数处理输入及前序状态,PyTorch实现多层LSTM时因参数增多导致训练速度下降。原创 2025-05-02 08:00:00 · 1341 阅读 · 44 评论 -
【现代深度学习技术】现代循环神经网络02:长短期记忆网络(LSTM)
本文讲解现代循环神经网络中的长短期记忆网络(LSTM),通过输入门、遗忘门、输出门和记忆元解决长短期依赖问题,结构较GRU复杂但提出更早,支持从零实现和框架简洁调用。原创 2025-05-01 11:35:30 · 1405 阅读 · 39 评论 -
【现代深度学习技术】现代循环神经网络01:门控循环单元(GRU)
本文讲解现代循环神经网络中的门控循环单元(GRU),包括原理、数学表达、从零实现及简洁实现,以解决RNN梯度问题。原创 2025-05-01 10:58:04 · 1090 阅读 · 47 评论 -
【现代深度学习技术】循环神经网络07:通过时间反向传播
本文讲解循环神经网络的通过时间反向传播。RNN梯度分析及BPTT是理解其原理的关键,通过深入分析RNN的梯度计算过程,我们可以更好地理解梯度爆炸和梯度消失的问题,BPTT可有效训练RNN捕捉序列依赖。原创 2025-04-28 09:43:20 · 1511 阅读 · 51 评论 -
【现代深度学习技术】循环神经网络06:循环神经网络的简洁实现
本文讲解循环神经网络的简洁实现。展示用深度学习框架高级API高效实现循环神经网络语言模型,包括模型定义、训练及预测,效果优于从零实现。原创 2025-04-25 09:54:39 · 2112 阅读 · 59 评论 -
【现代深度学习技术】循环神经网络05:循环神经网络的从零开始实现
本文讲解循环神经网络的从零开始实现。基于《时间机器》数据集,从零实现字符级循环神经网络语言模型。涵盖独热编码、参数初始化、RNN前向传播、梯度截断及训练过程。通过顺序和随机采样策略,演示模型训练与文本生成,使用困惑度评估性能,对比不同方法的收敛效果。原创 2025-04-21 09:47:39 · 1782 阅读 · 64 评论 -
【现代深度学习技术】循环神经网络04:循环神经网络
本文讲解现代深度学习技术的循环神经网络。RNN通过隐状态捕获序列历史信息,避免传统n元语法参数指数增长问题。其隐状态由当前输入和前步状态计算,用于语言模型等任务,困惑度衡量预测质量,值越低模型越优。原创 2025-04-19 09:29:48 · 1691 阅读 · 59 评论 -
【现代深度学习技术】循环神经网络03:语言模型和数据集
本文讲解循环神经网络中的语言模型和数据集。语言模型估计序列概率,传统n元语法受数据稀疏性限制,转向深度学习。随机采样和顺序分区处理长文本,词频遵循齐普夫定律,长尾分布挑战模型训练。原创 2025-04-16 13:29:09 · 1987 阅读 · 62 评论 -
【现代深度学习技术】循环神经网络02:文本预处理
本文讲解了循环神经网络中文本预处理的四个步骤:加载文本数据并清洗,拆分为词元,构建词表,转换为数字序列。通过《时光机器》示例,展示了代码实现,包括数据读取、正则处理、词频统计及索引转换,为模型提供数值化输入。原创 2025-04-09 12:03:17 · 7396 阅读 · 71 评论 -
【现代深度学习技术】循环神经网络01:序列模型
本文讲解循环神经网络中的序列模型。时间序列分析中,自回归模型利用历史数据预测未来,单步预测效果良好,但多步预测因误差累积导致准确性显著下降,突显序列动态变化及预测挑战。原创 2025-04-07 10:32:44 · 1346 阅读 · 49 评论 -
【现代深度学习技术】现代卷积神经网络07:稠密连接网络(DenseNet)
本文讲解现代卷积神经网络中的稠密连接网络(DenseNet)。DenseNet通过稠密连接各层输出,促进特征重用,减少参数量。其结构包含稠密块和过渡层,有效控制复杂度。相比ResNet的相加,连接操作增强信息流动,提升模型性能。实验显示在Fashion-MNIST上训练高效。原创 2025-04-03 09:00:00 · 2101 阅读 · 61 评论 -
【现代深度学习技术】现代卷积神经网络06:残差网络(ResNet)
ResNet通过残差块设计解决深层网络训练难题,允许跨层恒等映射,缓解梯度消失。其核心为残差学习,每个块拟合目标与输入的差值,使优化更易。ResNet-18等模型通过堆叠残差块实现,在ImageNet等任务中表现优异,推动深度学习发展。原创 2025-03-31 10:09:05 · 2256 阅读 · 72 评论 -
【现代深度学习技术】现代卷积神经网络05:批量规范化
本文讲解现代卷积神经网络中的批量规范化。批量规范化通过标准化每层输入并引入可学习参数γ和β,加速深层网络收敛。应用于全连接或卷积层后、激活函数前,分训练和预测模式,有效控制中间层变量分布,提升训练稳定性。原创 2025-03-30 09:58:00 · 1416 阅读 · 40 评论 -
【现代深度学习技术】现代卷积神经网络04:含并行连接的网络(GoogLeNet)
本文讲解现代卷积神经网络中的GoogLeNet模型及其核心组件——Inception块。GoogLeNet通过在同一层中使用不同大小的卷积核来提取多尺度信息,并通过并行路径减少模型复杂度。文章详细描述了GoogLeNet的结构,包括多个Inception块、最大汇聚层和全局平均汇聚层的堆叠。最后,通过实现一个简化版的GoogLeNet模型并在Fashion-MNIST数据集上进行训练,展示了其高效性和性能。原创 2025-03-26 09:49:11 · 1847 阅读 · 62 评论 -
【现代深度学习技术】现代卷积神经网络03:网络中的网络(NiN)
本文讲解现代卷积神经网络中的NiN网络。NiN网络创新性地使用由卷积层和多个1×1卷积层组成的块结构,增强每像素非线性。通过用通道数等于类别数的全局平均池化层替代全连接层,有效减少过拟合和参数量。原创 2025-03-24 09:41:43 · 1314 阅读 · 56 评论 -
【现代深度学习技术】现代卷积神经网络02:使用块的网络(VGG)
本文讲解现代卷积神经网络中使用块的网络(VGG)。VGG网络通过堆叠多个相同结构的卷积块(含3x3卷积、ReLU和最大池化)构建深层架构。块设计提升模块化,训练时缩减通道数以适应数据集,使用高学习率优化,实现高效特征提取。原创 2025-03-14 09:36:44 · 1077 阅读 · 57 评论 -
【现代深度学习技术】现代卷积神经网络01:深度卷积神经网络(AlexNet)
本文讲解深度卷积神经网络(AlexNet)。AlexNet在2012年ImageNet竞赛中突破,标志深度学习崛起。相比LeNet,其采用更大卷积核、ReLU激活函数和Dropout正则化,利用GPU加速和大规模数据训练,首次证明端到端学习特征优于传统手工设计,解决了深层网络训练难题,开启了CV领域新纪元。原创 2025-03-12 10:01:40 · 1118 阅读 · 56 评论