若天明-优快云博客

原创深度学习-自然语言处理-序列模型与文本预处理

本文介绍了序列模型在自然语言处理中的应用，重点探讨了两种建模思想：马尔科夫假设和潜变量模型。通过Python代码示例展示了如何使用PyTorch实现序列预测任务，包括数据生成、特征提取、模型训练和预测评估。同时详细解析了文本预处理的完整流程，包括文本清洗、分词、标准化、过滤和向量化等关键步骤，并提供了基于时间机器数据集的实战代码。文章还介绍了词表构建方法，将文本转换为数字索引以便模型处理。这些技术为理解自然语言处理中的序列建模和文本预处理提供了实践基础。

2025-09-22 20:20:05 1125 1

原创深度学习-计算机视觉-风格迁移

本文介绍基于卷积神经网络的图像风格迁移方法。该方法通过预训练的VGG-19网络提取内容图像和风格图像的特征，使用内容损失、风格损失和全变分损失定义优化目标，通过迭代更新合成图像。具体实现包括：预处理图像、定义特征提取网络、计算Gram矩阵表达风格特征，以及训练过程中优化损失函数。实验结果表明，该方法能有效保留内容图像的主体结构，同时迁移风格图像的艺术风格特征（如色彩分布和笔触纹理），最终生成具有艺术风格的合成图像。

2025-09-15 14:57:32 1288 2

原创深度学习-计算机视觉-目标检测三大算法-R-CNN、SSD、YOLO

目标检测算法主要分为两类：两阶段（Two-Stage）和单阶段（One-Stage）。两阶段算法如R-CNN系列，先提取候选区域再进行分类和回归，精度高但速度慢。R-CNN对每个候选区域单独处理；Fast R-CNN通过共享特征图提高效率；Faster R-CNN引入RPN实现端到端训练。单阶段算法如SSD和YOLO，直接在网络中预测目标的类别和位置，速度快但精度略低。SSD利用多尺度特征图检测不同大小的目标；YOLO将检测视为回归问题，通过网格划分一次性完成预测。选择算法需权衡速度和精度，两阶段方法适合高

2025-09-14 17:08:57 1385

原创深度学习-计算机视觉-物体检测与边缘框实现

本文介绍了目标检测任务中边界框的概念及其两种表示方法：两角坐标法和中心+宽高法。通过示例图像展示了狗和猫的边界框标注，并提供了两种表示法间的转换函数。文章还详细说明了如何用Matplotlib绘制边界框，包括坐标转换和可视化实现。代码示例清晰展示了边界框的转换过程及最终的可视化效果，为理解目标检测中的空间定位提供了实用指导。

2025-08-21 16:49:48 773

原创深度学习-计算机视觉-微调 Fine-tune

迁移学习通过利用预训练模型（如ImageNet上的ResNet-18）学习到的通用视觉特征（边缘、纹理、形状等），将其迁移到新任务（如热狗识别）以提升性能。核心方法包括：1）替换输出层适配新任务；2）微调模型参数（特征层使用小学习率，输出层大学习率）。实验表明，微调预训练模型（测试准确率93.9%）显著优于从头训练（84.3%），尤其适合小数据集场景。代码实现了数据增强、模型结构调整和分层学习率优化，验证了迁移学习的有效性。

2025-08-18 21:03:14 1474

原创深度学习-计算机视觉-数据增广/图像增广

摘要：数据增广是提升深度学习模型泛化能力的关键技术，通过多种图像变换方法增加训练数据多样性。常用方法包括几何变换（翻转、裁剪）、色彩调整（亮度、色调）等，需根据任务特点选择合适策略。代码示例展示了使用PyTorch实现随机翻转、裁剪和颜色变换的方法，以及如何组合多种增广方式。数据增广可有效解决数据稀缺问题，但需注意避免过度增广导致数据失真。该技术在AlexNet等模型成功中发挥了重要作用。

2025-08-17 20:39:09 1175

原创深度学习-计算机视觉-现代卷积神经网络

本文系统回顾了卷积神经网络(CNN)的发展历程，重点分析了LeNet、AlexNet、VGG、NIN、GoogLeNet和ResNet等里程碑式模型的创新点和技术特点。AlexNet首次证明深度学习特征优于手工设计特征；VGG通过增加网络深度提升性能；NIN引入1×1卷积和全局平均池化；GoogLeNet提出多尺度特征提取的Inception模块；ResNet通过残差连接解决深度网络训练难题。这些模型在ImageNet等基准测试中不断突破性能极限，推动了计算机视觉技术的快速发展。文章详细阐述了各模型的

2025-08-16 18:05:02 1009

原创深度学习-卷积神经网络-ResNet 残差网络

在深度学习的发展历程中，卷积神经网络（CNN）不断推陈出新，ResNet（Residual Network）作为其中的杰出代表，以其独特的残差学习机制在图像识别领域取得了显著的成果，并推动了 CNN 的进一步发展。

2025-08-15 18:26:39 1064

原创深度学习-卷积神经网络CNN-批量归一化 BatchNorm

以 batch-0 为例：把 3×2×2 = 12 个数拉成一条向量： {1, 3, 5, 7, 2, 4, 6, 8, 0, 2, 4, 6}以 R 通道为例：共有 2×2×2 = 8 个像素值：{1, 3, 5, 7, 2, 4, 6, 8}输入：手写数字灰度图，只保留 2 个像素 → 输入 x 形状 (batch, 2)。归一化维度：在 (B, H, W) 三个维度上求均值/方差，每个通道一组统计量。归一化维度：在 (C, H, W) 三个维度上求均值/方差，每条样本一组统计量。

2025-08-14 22:22:28 1538 2

原创深度学习-卷积神经网络-GoogLeNet

在深度学习的发展历程中，卷积神经网络（CNN）不断推陈出新，GoogLeNet 作为其中的杰出代表，以其独特的 Inception 架构在图像识别领域取得了显著的成果。GoogLeNet吸收了前文中NiN的串联网络的思想，并在此基础上做了改进。这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。毕竟，以前流行的网络使用小到1×1，大到11×11 的卷积核。

2025-08-13 16:39:35 1089

原创深度学习-卷积神经网络-NIN

网络结构是卷积神经网络（CNN）发展的关键。其中，网络结构的改进至关重要。本文将介绍一种具有创新意义的卷积神经网络——NIN（Network in Network）。AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。或者，可以想象在这个过程的早期使用全连接层。然而，在每个NIN的核心创新在于引入了“微网络”（Network in Network）的概念。具体来说，每个卷积层后面都跟随着一个1×1卷积核的微型网络，用于对特征图进行逐像素的特征变换，增加了网络的非线性表达能力。

2025-08-12 16:29:05 1268

原创深度学习-卷积神经网络-VGG

卷积神经网络（CNN）在计算机视觉领域取得了显著的成果，而 VGG（Visual Geometry Group）网络作为其中的经典模型之一，凭借其简洁而优雅的结构，对深度学习的发展产生了深远的影响。虽然AlexNet证明深层神经网络卓有成效，但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似，神经网络架构的设计也逐渐变得更加抽象。研究人员开始从单个神经元的角度思考问题，发展到整个层，现在又转向块，重复层的模式。

2025-08-11 11:22:47 1267

原创深度学习-卷积神经网络-AlexNet

在深度学习的发展历程中，卷积神经网络（CNN）扮演着举足轻重的角色，而 AlexNet 作为 CNN 发展史上的一个里程碑式模型，具有重大的意义和影响力。2012年，AlexNet横空出世。它首次证明了。AlexNet 由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出，并在当年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）中以显著的优势取得了冠军，推动了深度学习在计算机视觉领域的快速发展，引发了深度学习在各个领域的广泛关注和应用。

2025-08-10 21:01:46 1039

原创深度学习-卷积神经网络-LeNet

它通过卷积层自动提取数据中的特征，利用局部连接和参数共享的特性减少了模型的参数数量，降低了过拟合的风险，同时能够有效地捕捉数据中的空间层次结构信息，使得模型在图像识别、分类等任务中表现出色。每个卷积核与输入图像进行卷积操作，产生 6 个特征图，每个特征图的大小为 28×28。包含 16 个 5×5 的卷积核，这些卷积核不仅与 S2 层的部分特征图相连，而且每个卷积核连接的特征图组合不同。随着层叠的上升，通道的数量从输入时的1个，增加到第一个卷积层之后的6个，再到第二个卷积层之后的16个。

2025-08-09 16:21:27 1133

原创深度学习-卷积神经网络CNN-池化层 Pooling

它位于卷积层之后，主要目的是对卷积层输出的特征图进行降采样，降低特征图的空间尺寸，同时保留重要的特征信息。对于给定输入元素，最大池化层会输出该窗口内的最大值，平均池化层会输出该窗口内的平均值。当然，我们可以设定一个任意大小的矩形汇聚窗口，并分别设定填充和步幅的高度和宽a度。的汇聚窗口，那么默认情况下，我们得到的步幅形状为。池化层的输出通道数与输入通道数相同。下面，我们将在通道维度上连结张量。我们可以指定池化层的填充和步幅。使用最大池化层以及大于1的步幅，填充和步幅可以手动设定。池化层的主要优点之一是。

2025-08-08 16:31:49 934

原创深度学习-卷积神经网络CNN-1×1卷积层

增加非线性：1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep。卷积的本质是有效提取相邻像素间的相关特征，而1×1的卷积显然没有此作用。例如，可以将不同大小的特征图转换为相同的通道数，然后进行融合，以便更好地利用多尺度信息。降维：在应用3×3或5×5卷积之前，使用1×1卷积减少输入通道数，从而降低计算量。增加通道数（升维）：将输入特征图的通道数增加，从而提供更多的特征表示能力。

2025-08-07 16:32:24 769

原创深度学习-卷积神经网络CNN-多输入输出通道

每个图像有多个通道和多层卷积层。例如彩色图像具有标准的RGB通道来代表红、绿和蓝。但是到目前为止（详细见前面几章知识点），我们仅展示了单个输入和单个输出通道的简化例子。这使得我们可以将输入、卷积核和输出看作二维张量。当我们添加通道时，我们的输入和隐藏的表示都变成了三维张量。例如，每个RGB输入图像具有 3*h*w 的形状。我们将这个大小为的轴称为。本节将更深入地研究具有多输入和多输出通道的卷积核。

2025-08-06 19:58:52 779

原创深度学习-卷积神经网络CNN-填充与步幅

【先导】：填充可以增加输出的高度和宽度。这常用来使输出与输入具有相同的高和宽。步幅可以减小输出的高和宽，例如输出的高和宽仅为输入的高和宽的（是一个大于的整数）。填充和步幅可用于有效地调整数据的维度。

2025-08-05 21:11:21 1249

原创深度学习-卷积神经网络CNN-卷积层

计算机视觉的神经网络架构：平移不变性（translation invariance）：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”。局部性（locality）：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。图像的平移不变性使我们以相同的方式处理局部图像，而不在乎它的位置。局部性意味着计算相应的。

2025-08-04 20:14:53 1334 2

原创深度学习-读写模型网络文件

模型网络文件是深度学习模型的存储形式，保存了模型的架构、参数等信息。读写模型网络文件是深度学习流程中的关键环节，方便模型的训练、测试、部署与共享。

2025-08-03 20:39:39 639

原创深度学习-模型初始化与模型构造

也称为Glorot初始化，因为发明人为Xavier Glorot。Xavier initialization是 Glorot 等人为了解决随机初始化的问题提出来的另一种初始化方法，旨在保持激活函数的方差在前向传播和反向传播过程中大致相同。

2025-08-02 21:04:23 944

原创深度学习-梯度爆炸与梯度消失

深度学习训练中常遇到梯度消失和梯度爆炸问题。梯度消失导致深层网络参数难以更新，表现为训练停滞；梯度爆炸则使参数剧烈波动，导致训练失控。解决方案包括使用ReLU激活函数、梯度裁剪等技术。此外，模型推理时需调用model.eval()切换Dropout和BatchNorm层至推理模式，常与torch.no_grad()配合使用以保证稳定性和效率。这些方法对CV、NLP等任务至关重要。

2025-08-01 20:22:17 954

原创深度学习-丢弃法 Dropout

基于李沐课程、吴恩达课程和我自己的学习经验整理而成的笔记。

2025-07-30 20:52:20 914

原创深度学习-权重衰退 Weight Decay

把这句话拆成三个关键词：显式——它必须是人为“加进去”的，而不是模型本来就有的；牺牲训练误差——如果不付出代价，就不叫正则化；换取复杂度下降——最终目的是降低泛化误差（测试误差）。下面是L2 权重衰减（Weight Decay）额外惩罚项 λ‖w‖² 拉高损失权重变小 → 函数更平滑，VC 维↓L1 权重衰减（Lasso）额外惩罚项 λ‖w‖₁ 拉高损失权重稀疏 → 特征选择，有效参数量↓Dropout训练时随机屏蔽神经元/权重，网络更难拟合。

2025-07-29 21:25:37 1028

原创深度学习-模型评估与选择

模型在训练数据上的误差。问题：过度追求低训练误差 → 过拟合（模型记忆噪声，泛化能力差）。：模型在新数据上的误差，也称为。目标：最小化测试误差 → 确保模型泛化能力。：模型预测与真实值的系统性差距。本质：模型忽略了多少真实规律高偏差 → 欠拟合（模型过于简单，忽略数据规律）。：模型对训练数据扰动的敏感性。本质：模型学习了多少噪声高方差 → 过拟合（模型复杂，过度拟合噪声）。：数据固有噪声σ。关键：与模型无关，是现实世界的固有不确定性。欠拟合训练误差和测试误差均高高偏差，低方差过拟合。

2025-07-28 20:14:45 1522

原创深度学习-感知机

X 行是样本，列是特征。

2025-07-26 20:29:18 1021

原创深度学习-梯度下降法

减少震荡：在梯度方向来回摆动的维度上（如峡谷壁），正负动量会相互抵消一部分，使得更新方向更偏向于峡谷底部（最小值）的方向。有些方向需要小步长（高曲率，陡峭），有些方向可以承受大步长（低曲率，平缓）。在该方向上的负值（注意更新公式中的负号）会累积增大，从而加速向谷底（θ₂=0）前进，同时抑制了来回震荡。：在山谷（损失函数等高线呈狭长峡谷状）中，梯度方向在峡谷壁之间剧烈摆动，导致沿峡谷方向（指向最小值）的进展缓慢。加速平缓方向：在梯度平缓的方向（小梯度），分母相对较小，有效学习率相对较大，加速前进。

2025-07-24 20:35:55 1181

原创深度学习-线性神经网络基础

线性回归（linear regression）可以追溯到19世纪初，它在回归的各种标准工具中最简单而且最流行。线性回归基于几个简单的假设：首先，假设自变量x和因变量y之间的关系是线性的，即y可以表示为x中元素的加权和，这里通常允许包含观测值的一些；其次，我们假设任何噪声都比较正常，如噪声遵循正态分布。在机器学习的术语中：已有的真实数据集称为；每，也可以称为数据点（data point）或数据样本（data instance）；试图；或协变量（covariate）。

2025-07-22 21:11:59 1120

原创深度学习-PyTorch基础

例如在房价预测中，你可能有一个数据库，有专门的几列数据告诉你卧室的大小和数量，这就是结构化数据。或预测用户是否会点击广告，你可能会得到关于用户的信息，比如年龄以及关于广告的一些信息，然后对你的预测分类标注，这就是结构化数据，意思是每个特征，比如说房屋大小卧室数量，或者是一个用户的年龄，都有一个很好的定义。相反非结构化数据是指比如音频，原始音频或者你想要识别的图像或文本中的内容。这里的特征可能是图像中的像素值或文本中的单个单词。它返回的是数据集的大小（即样本数量），不是访问某个样本。

2025-07-20 20:42:40 1283

原创深度学习-线性代数

这些标量值被称为向量的元素（element）或分量（component）。当向量表示数据集中的样本时，它们的值具有一定的现实意义。就像向量是标量的推广，矩阵是向量的推广一样，张量是具有更多轴的数据结构。A是（5,4）的矩阵，axis=0时，求出的和矩阵变为（4），axis=1时，求出的和矩阵变为（5）。将张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘。正如向量将标量从零阶推广到一阶，矩阵将向量从一阶推广到二阶。为了通过求和所有行的元素来降维（轴0），可以在调用函数时指定。

2025-07-19 20:39:39 450

weixin_74126320的博客