m0_67869333-优快云博客

原创深度学习笔记20-YOLOv5-Backbone模块实现(Pytorch)

YOLO 的 Backbone 模块是整个目标检测架构中的关键部分，负责从输入图像中提取特征。

2025-04-04 19:46:56 273

原创深度学习笔记19-YOLOv5-C3模块实现(Pytorch)

三、训练模型1.编写训练函数2.编写测试函数3.正式训练2.模型评估五、总结1. YOLO的C3模块

2025-03-28 20:13:42 307

原创深度学习笔记18-马铃薯病害识别(Pytorch)

VGG-16（Visual Geometry Group-16）是由牛津大学视觉几何组提出的一种深度卷积神经网络架构，用于图像分类和对象识别任务。VGG-16在2014年被提出，是VGG系列中的一种。VGG-16之所以备受关注，是因为它在ImageNet图像识别竞赛中取得了很好的成绩，展示了其在大规模图像识别任务中的有效性。以下是VGG-16的主要特点：1. 深度：VGG-16由16个卷积层和3个全连接层组成，因此具有相对较深的网络结构。这种深度有助于网络学习到更加抽象和复杂的特征。 2. 卷积层的设计

2025-03-21 21:22:17 336

原创深度学习笔记17-VGG-16算法(Pytorch)

2. 卷积层的设计：VGG-16的卷积层全部采用3x3的卷积核和步长为1的卷积操作，同时在卷积层之后都接有ReLU激活函数。这种设计的好处在于，通过堆叠多个较小的卷积核，可以提高网络的非线性建模能力，同时减少了参数数量，从而降低了过拟合的风险。3. 池化层：在卷积层之后，VGG-16使用最大池化层来减少特征图的空间尺寸，帮助提取更加显著的特征并减少计算量。4. 全连接层：VGG-16在卷积层之后接有3个全连接层，最后一个全连接层输出与类别数相对应的向量，用于进行分类。

2025-03-14 11:42:51 256

原创深度学习笔记16-运动鞋品牌识别(Pytorch)

目录一、前期工作1.导入数据并读取2.创建数据加载器二、构建简单的CNN网络三、训练模型1.编写训练函数2.编写测试函数3.设置动态学习率4.正式训练四、结果可视化五、尝试数据增强操作六、总结1.torchvision.transforms.Compose()类2.[N, C, H, W]3.感受野与卷积核大小的权衡 2.编写测试函数3.设置动态学习率4.正式训练根据loss和accuracy图，训练准确率明显高于测试准确

2025-03-06 18:37:44 1090

原创深度学习笔记15-猴痘病识别(Pytorch)

参数详解是 PyTorch 中用于加载和管理数据的一个实用工具类。它允许你以小批次的方式迭代你的数据集，这对于训练神经网络和其他机器学习任务非常有用。DataLoaderdataset（必需参数）：这是你的数据集对象，通常是的子类，它包含了你的数据样本。batch_size（可选参数）：指定每个小批次中包含的样本数。默认值为 1。shuffle（可选参数）：如果设置为True，则在每个 epoch 开始时对数据进行洗牌，以随机打乱样本的顺序。这对于训练数据的随机性很重要，以避免模型学习到数据的顺序性。

2025-02-21 21:36:02 579

原创深度学习笔记14-Pytorch实现天气识别

参数详解是 PyTorch 中用于加载和管理数据的一个实用工具类。它允许你以小批次的方式迭代你的数据集，这对于训练神经网络和其他机器学习任务非常有用。DataLoaderdataset（必需参数）：这是你的数据集对象，通常是的子类，它包含了你的数据样本。batch_size（可选参数）：指定每个小批次中包含的样本数。默认值为 1。shuffle（可选参数）：如果设置为True，则在每个 epoch 开始时对数据进行洗牌，以随机打乱样本的顺序。这对于训练数据的随机性很重要，以避免模型学习到数据的顺序性。

2025-02-14 21:35:56 700

原创深度学习笔记13-CIFAR彩色图片识别(Pytorch)

原型：torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)( int ) – 输入图像中的通道数( int ) – 卷积产生的通道数( int or tuple ) – 卷积核的大小stride。

2025-01-24 21:25:04 827

原创深度学习笔记12-mnist手写数字识别(Pytorch)

函数原型：torchvision.datasets.MNIST(root,train=True,transform=None,target_transform=None,download=False)root(string)：数据地址train(string)：True-训练集，False-测试集download(bool,optional):如果为True，从互联网上下载数据集，并把数据集放在root目录下。

2025-01-17 21:09:25 1119

原创深度学习笔记11-优化器对比实验(Tensorflow)

通过本次实验，学会了比较不同优化器（Adam和SGD）在训练过程中的性能表现，可视化训练过程的损失曲线和准确率等指标。这是一项非常重要的技能，在研究论文中，可以通过这些优化方法可以提高工作量。

2025-01-10 18:51:29 717

原创深度学习笔记10-数据增强(Tensorflow)

在深度学习中，数据增强（Data Augmentation）是一种通过对现有数据进行各种转换和变换，从而生成更多训练样本的方法。在计算机视觉中，常见的数据增强方法包括随机裁剪、旋转、翻转、缩放、平移、亮度调整、对比度调整、添加噪声等。其主要目的是通过增加数据量和多样性，帮助模型学习到更加泛化的特征，提高模型的鲁棒性，并减少过拟合现象。随机亮度、对比度、色度、饱和度的设置# 这是大家可以自由发挥的一个地方# 随机改变图像对比度# 随机改变图像的亮度# 随机改变图像的色度# 随机改变图像的饱和度。

2025-01-03 20:19:32 1133

原创深度学习笔记09-猫狗识别2(Tensorflow)

在训练模型的时候报错，在问了AI后，知道了动态调整学习率需要注意版本兼容问题。TensorFlow 的优化器属性因版本不同而有所变化，新版本中使用model.optimizer.learning_rate.assign(lr)，而旧版本中可以用 K.set_value(model.optimizer.lr, lr)。此外，确保学习率的数据类型为浮点数（float），避免因类型不匹配导致报错。通过兼容不同版本的方式，不仅提高了代码的鲁棒性，也为后续模型优化提供了更灵活的解决方案。

2024-12-27 19:34:32 918

原创深度学习笔记08-猫狗识别(Tensorflow)

tqdm是Python的进度条库，可以在 Python长循环中添加一个进度提示信息。

2024-12-20 20:35:07 786

原创深度学习笔记07-咖啡豆识别(Tensorflow)

自己搭建VGG模型时，需要先对数据进行归一化操作，利用rescaling包并通过.map(lambda x,y:)

2024-12-13 19:23:23 472

原创深度学习笔记06-好莱坞明星识别(Tensorflow)

1. 网络结构层数: VGG16包含16个主要的权重层，包括13个卷积层和3个全连接层。卷积层: VGG16使用小的3x3卷积核进行卷积操作，增加了网络的深度，同时保持了较少的参数数量。池化层: 每隔几个卷积层后，会使用2x2的Max Pooling降低特征图的尺寸，并减少计算量。2. 激活函数VGG网络普遍使用ReLU作为激活函数，增加了网络的非线性表达能力。3. 输入和输出输入: VGG16接受224x224像素的RGB图像作为输入。

2024-12-06 11:23:35 532

原创深度学习笔记05-CNN实现运动鞋品牌识别(Tensorflow)

学习率大学习率小优点1.加快学习速率。2.有助于跳出局部最优值1.有助于模型收敛、模型细化2.提高模型精度缺点1.导致模型训练不收敛。2.单单使用大学习率易导致模型不精确1.很难跳出局部最优值2.收敛缓慢是 TensorFlow 中的一个学习率衰减策略，用于在训练神经网络时动态地降低学习率。学习率衰减是一种常用的技巧，可以帮助优化算法更有效地收敛到全局最小值，从而提高模型的性能。主要参数：初始学习率大小。global_step：用于衰减计算的全局步骤。

2024-11-27 08:48:08 936

原创简单理解反向传播(BP)算法(自用)

反向传播算法(Back-Propagation，BP)，是深度学习最核心的算法之一。可以利用反向传播算法快速计算梯度值，然后再利用梯度下降算法训练整个神经网络。

2024-11-18 19:33:04 919

原创信息熵、KL散度(相对熵)、交叉熵通俗理解

单调性：不确定度函数f是概率p的单调减函数非负性可加性：,I(A,B)代表一个随机变量包含另一个随机变量信息量的度量在机器学习领域，比如构建决策树等算法时，信息熵用于特征选择，通过计算信息增益来选择最有信息量的特征。非对称性非负性（吉布斯不等式推导）分类问题：在分类任务中，模型需要输出每个类别的概率。交叉熵损失函数能够衡量模型预测的概率分布与真实标签之间的差异，通过最小化交叉熵损失，可以优化模型以提高准确率。图像识别：广泛应用于卷积神经网络（CNN）的训练中。

2024-11-18 08:18:42 1234

原创深度学习笔记04-CNN实现猴痘病识别(Tensorflow)

在深度学习中，模型训练是一个反复进行的过程，模型的效果也会随着训练的进行不断改变。所以可以利用回调函数及时保存模型。在上一个实例中，我们自定义了一个监控val_accuracy的回调函数也是为了避免模型效果的丢失。而且ModelCheckpoint函数也有助于防止过拟合，及时停止训练或回溯到表现较好的模型权重，有助于提高模型泛化能力。

2024-11-16 14:07:47 722

原创深度学习笔记03-CNN实现天气识别(Tensorflow)

image_dataset_from_directory全部参数directory,#数据所在目录。labels="inferred",#若标签是inferred,则directory应该包含子目录，#每个目录包含一个类的图像。否则,忽略目录结构。label_mode="int",#编码为int，损失函数为：sparse_categorical_Crossentropy#为categorical,损失函数为：categorical_crossentropy。

2024-11-09 19:49:16 981

原创批量归一化（Batch Normalization)

BN可以加速神经网络的收敛，使训练过程中对学习率和参数初始化更加鲁棒，但也有一些仅在Batch中包含较多样本数量时有效对循环神经网络RNN或序列数据Sequence性能较差分布式运算时影响效率x_1x_5x_iz_iz_1z_5%5Cgamma%5Cbeta%5Cgamma%5Cbetaw%2Cbbm。

2024-11-06 10:07:17 1032

原创深度学习笔记02-CNN实现彩色图片分类(Tensorflow)

彩色图片：通常包含三个颜色通道，即红（Red）、绿（Green）、蓝（Blue），简称RGB。这三个通道的不同组合可以产生数百万种颜色，以呈现丰富多彩的图像。灰度图片：只有一个颜色通道，即灰度通道。灰度通道记录的是亮度信息，没有颜色信息。在灰度图中，每个像素只有一个值，表示该像素的亮度级别，通常范围从0（黑色）到255（白色）。

2024-11-03 16:31:30 675

原创梯度下降算法（Gradient Descent）

梯度下降算法

2024-10-30 10:15:46 899

原创深度学习笔记01-CNN实现mnist手写数字识别(Tensorflow)

神经网络常使用梯度下降法来进行优化，而数据的取值范围会影响梯度的更新速度。如果数据的数值差异较大，可能导致梯度下降不平衡，进而使模型收敛变慢。通过归一化，可以让模型的各层权重更新更稳定，梯度下降也会更加有效。（灰度图像的像素最大值为255，直接除以255就行）。

2024-10-28 16:29:31 1075

m0_67869333的博客