阿龙AI日记-优快云博客

原创小白也能上手YOLOv5：使用YOLOv5训练自己的数据集

本文详细介绍了如何将YOLOv5应用于自定义数据集训练。首先解析了COCO数据集的结构，包括路径配置和标签格式。然后重点讲解了使用labelimg工具制作自定义数据集的方法：创建规范的目录结构，标注图片并生成YOLO格式的标签文件。接着说明了如何编写适配自己数据集的yaml配置文件，包括设置数据路径和类别名称。最后给出了训练和测试模型的完整命令流程，生成的模型将保存在指定目录中。整个过程强调保持与官方数据集一致的结构，使模型能顺利在自定义数据上训练。文章为读者提供了从数据准备到模型训练的全流程指导。

2026-01-07 21:44:47 670

原创小白也能上手YOLOv5：环境搭建、模型使用、模型训练

本文详细介绍了YOLOv5从下载到训练的全流程。首先说明如何从GitHub下载YOLOv5源码，并建议使用Anaconda创建虚拟环境管理项目依赖。然后分步骤讲解环境搭建，包括安装requirements.txt中的库和配置镜像源。接着演示两种推理方式：通过Python代码调用模型和使用detect.py脚本处理图片/视频。最后指导训练流程，包括下载COCO数据集、设置训练参数以及保存和使用训练好的权重。文章还预告了后续将讲解自定义数据集的训练方法。整个教程循序渐进，适合目标检测初学者快速上手YOLOv5。

2025-12-31 08:00:00 1544

原创彻底搞懂YOLOv3模型！

本文回顾了YOLOv1和YOLOv2的核心思想，重点介绍了YOLOv3的改进。YOLOv3采用Darknet-53网络结构，引入残差连接和多尺度特征融合（13×13、26×26、52×52三个检测层），通过concat方式进行特征融合。在边界框预测方面，沿用了锚框机制，共使用9种锚框（3种/尺度），预测框参数包括坐标偏移、置信度和类别得分。最终通过非极大值抑制处理10647个预测框。损失函数包含边界框、置信度和多标签分类损失，采用二元交叉熵计算。相比前代，YOLOv3在深层特征提取和小物体检测方面表现更优。

2025-12-28 16:03:27 1017

原创彻底搞懂YOLOv2模型!

YOLOv2针对YOLOv1的不足进行了多项改进：采用DarkNet-19作为主干网络，通过3×3和1×1卷积组合提升效率；引入PassThrough层实现细粒度特征融合；训练时采用高分辨率分类器(448×448)和多尺度训练增强适应性；创新性地引入锚框机制，预设5个不同形状的预测框，通过偏移量计算最终检测框。这些改进显著提升了检测精度，特别是对小目标和密集物体的识别能力，同时保持了较快的检测速度。

2025-12-24 23:21:33 691

原创彻底搞懂YOLOv1模型！

本文详细解析了YOLOv1目标检测模型的工作原理。模型通过CNN将448×448图像转换为7×7×30特征立方体，每个网格包含2个预测框的位置参数、置信度及20类概率。关键创新在于将CNN输出结构化解释：位置参数(tx,ty)表示相对偏移，(w,h)为比例尺寸。通过得分阈值筛选和NMS处理冗余检测框，最终输出结果。损失函数设计上，置信度标签采用预测框与真实框的IoU值，更符合实际检测精度。这种结构化输出和特殊损失设计，使YOLO仅用CNN就实现了高效目标检测。

2025-12-21 19:49:45 584

原创彻底搞懂YOLOv1:R-CNN与YOLO架构的区别在哪里？

本文介绍了目标检测技术的发展历程及经典框架。目标检测相比分类任务增加了定位要求，包含定位和识别两个子任务。传统方法依赖人工特征提取，而深度学习通过卷积神经网络自动学习特征。2014年R-CNN开创了两阶段检测范式（先提取候选区域再分类），2015年YOLO提出单阶段检测（直接输出位置和类别），以检测速度优势引领了目标检测领域的发展。文章重点比较了R-CNN和YOLO的架构差异：两阶段检测先定位后分类，单阶段检测则一步完成。

2025-12-17 20:40:59 760

原创保姆级教程：Anaconda+Cuda+Torch+Pycharm配置指南

深度学习环境配置指南本文详细介绍了深度学习开发环境的配置流程，主要包括四个核心组件： Anaconda：用于创建和管理Python虚拟环境，解决多版本Python共存问题 CUDA：NVIDIA提供的GPU计算工具包，为深度学习框架提供GPU支持 PyTorch：主流的深度学习框架，提供神经网络构建和训练功能 PyCharm：集成开发环境，提升代码编写和调试效率文章依次讲解了每个组件的安装步骤和配置方法。

2025-12-10 20:49:50 631 1

原创彻底搞懂神经网络原理02：网络如何反向传播和训练？

摘要：本文系统介绍了神经网络反向传播的核心原理。首先阐述了损失函数（均方差和交叉熵）的作用，用于衡量预测值与真实值的差距。其次详细讲解了梯度下降法的实现过程，包括学习率的选择策略。重点剖析了反向传播中的链式法则应用，通过逐层求导更新权重参数。最后总结了神经网络训练的完整流程：前向传播计算预测值，反向传播更新权重，循环迭代直至收敛。文章为理解神经网络训练机制提供了清晰的数学框架和实现路径。

2025-12-07 22:03:07 1273

原创彻底搞懂神经网络原理01：神经元怎么计算实现前向传播？

彻底搞懂神经元你首先前向传播。

2025-12-03 22:09:45 981

原创手把手教你搭建AlexNet实现花朵分类，点击run就能跑！

本文提供了一个完整的AlexNet花朵分类项目代码，包含训练和预测功能，可直接运行。代码实现了对雏菊、蒲公英、玫瑰、向日葵和郁金香5类花朵的分类，包含数据预处理、模型搭建、训练和预测全流程。数据预处理包括随机裁剪、水平翻转等增强操作；AlexNet模型采用5层卷积和3层全连接结构；训练过程可视化损失曲线；预测时只需提供图片即可获得分类结果。代码经过调试可直接使用，适合深度学习初学者实践图像分类任务。

2025-12-01 23:08:28 944

原创彻底搞懂Transformer05：Encoder+Decoder总结篇

本文系统总结了Transformer核心机制的原理与作用。首先回顾了Transformer的关键组件：词嵌入与位置编码解决了并行计算丢失序列位置信息的问题；点积注意力机制通过矩阵乘法高效计算相似度，并采用√dk缩放防止梯度消失；层归一化通过通道级归一化降低BatchSize影响，更适合NLP任务。特别对比了Encoder-Decoder结构的差异：Decoder采用掩码注意力处理目标序列，第二层注意力融合Encoder输出。文章通过剖析各模块设计动机，揭示了Transformer在并行计算、特征提取和序列建

2025-11-26 21:02:45 1380

原创详解Transformer04：Decoder的结构

本文重点解析Transformer解码器(Decoder)的结构与工作原理。解码器输入需右移一位并添加掩码矩阵，防止训练时"偷看"后续内容。其核心包含两个注意力机制：第一个采用掩码自注意力，实现逐步学习；第二个则让解码器的查询(Q)与编码器提供的键值(KV)交互，模拟解题时查阅资料的过程。测试阶段解码器采用迭代式输入，逐步生成输出。文章通过翻译任务示例，详细阐述了掩码矩阵的作用机制和QKV的来源差异，揭示了Transformer如何实现并行训练与序列生成的平衡。

2025-11-23 22:04:02 1142

原创彻底搞懂Transformer03：Add & Norm和前馈网络

本文详细解析了Transformer模型中的Add&Norm和前馈层(FFN)结构。作者从残差连接的思想入手，解释了其缓解梯度消失/爆炸的作用；阐述了层归一化(LayerNorm)的计算过程和意义；分析了FFN作为非线性变换的核心组成。文章通过架构图、思维导图和计算示例，清晰展示了这些组件在Transformer编码器中的位置和功能，并指出理解这些部分就掌握了编码器的核心原理。作者表示后续将深入讲解解码器结构，完成对Transformer模型的完整解析。

2025-11-20 22:49:29 627

原创彻底搞懂Transformer02：模型怎么拥有的注意力？

本文详细解析了Transformer中的自注意力机制与多头注意力机制。文章首先回顾了词嵌入和位置编码的基础知识，然后重点介绍了QKV矩阵的计算过程、注意力权重的推导方法以及注意力结果生成的完整流程。通过3×6矩阵的具体示例，阐述了从输入X到输出Z的变换过程，并解释了多头注意力如何通过拼接多个注意力结果保持输入输出维度一致。文中还通过职业知识共享的类比，生动说明了注意力分数的物理含义。最后总结了输入输出参数关系的关键点，为理解Transformer的核心机制提供了清晰的技术路径。

2025-11-19 19:48:57 721

原创彻底搞懂Transformer01：文本到底是怎么转化为数据的？

文章重点讲解了Transformer输入处理的两个关键步骤：词嵌入和位置编码。词嵌入通过将词语映射到高维向量空间来保留语义信息，而位置编码则通过正弦和余弦函数为模型提供位置信息。文中详细说明了词嵌入矩阵的构建方法、维度选择以及位置编码的计算公式，并解释了如何将两者相加作为Transformer的最终输入。这些处理使Transformer能够有效捕捉序列中词语的语义和位置关系，为后续的自注意力机制等核心组件奠定了基础。

2025-11-12 21:10:13 634

原创手把手教你用LSTM预测股票价格，还挺准。

主要包含四部分内容：1、代码目录结构2、使用方法（如何训练，如何预测）3、代码详解（模型具体的搭建过程）4、结果分析（参数如何调整）

2025-11-09 23:25:37 871

原创图解LSTM：NLP时代的旧王

LSTM我们主要把握好它的输入输出，以及门控机制的几个公式，就可以迅速掌握啦。如果之前了解过RNN的小伙伴就会知道，RNN天然有着许多不足，比如梯度爆炸和梯度消失的问题，不能解决长距离依赖。LSTM针对以上几点，通过门控机制对其作出了改进，使得LSTM大放异彩，同时有了很多变种，在NLP领域表现非常出色。

2025-11-04 07:40:56 822

原创实战：手把手教你训练RNN预测函数值

本文介绍了一个使用RNN模型预测三角函数值的简单实现。文章详细说明了如何构建一个3层RNN网络，使用PyTorch的nn.RNN模块实现正弦值到余弦值的预测任务。关键点包括：模型参数设置：input_size=1（单值输入）、hidden_size=32、num_layers=3 数据生成方法：在π范围内均匀采样300个点作为输入序列训练过程：使用MSE损失函数和Adam优化器，加入学习率调整和梯度裁剪 .

2025-11-02 15:22:53 1185

原创二十张图带彻底弄懂RNN！

介绍了RNN（循环神经网络）的基础知识和应用场景。RNN作为NLP领域的重要模型，RNN通过循环连接的网络结构处理序列数据，解决了CNN难以处理变长序列的问题。文章详细解析了RNN的四种典型结构（1to1、NtoN、Nto1、1toN）及其工作原理，重点说明了隐状态h的信息传递机制。同时探讨了RNN在机器翻译、情感分析等任务中的应用，以及其存在的梯度爆炸和长距离依赖等缺陷。

2025-11-01 09:29:21 815

原创快速入门深度学习，我的心得体会

两到三个星期快速入门深度学习是可行的。上一篇文章发表出来后，有一些小伙伴私信我问了一些问题，我觉得大家可能还是不够自信，给大家举一些例子，增加信心。说一千道一万，行动起来，找准目标，根据有效的方法路径和资源，这件事完全可行。我还希望建立一些专辑，整理快速入门CV的理论，快速入门NLP的理论，整理出来的都是万万不可跳过的，学完了这些，加之辅助代码，跳过暂时不那么要紧的知识，我想入门足够了。大家有问题还是可以私信我哦，看到有时间我都会回复。

2025-10-29 21:47:37 449

原创手把手教你搭建自己的CNN，点击run就能跑！

很多小伙伴在入门深度学习的时候在网上下载CNN的代码五花八门，要么不完整，要么都是一些零散的片段，对于小白来说十分不友好，今天就手把手带大家完整的学习CNN的代码，包含训练测试，以及测试自己的图片。完整代码和数据集文末有获取方式哦。

2025-10-26 23:42:41 1213

原创快速入门深度学习，两到三个星期够啦。

网上看到的深度学习路线五花八门，看的人眼花缭乱，如果我们想要快速做出自己的项目，我们要找准目标，不要四处出击，是可以短时间内达到目的。拥有正确的学习方法和路线，始终锚定自己的最终目的地，有的放矢，精准的获取自己所需要的信息，拥有好心态，乐观面对问题，排除一切干扰，达到自己的预期，深度学习其实也是很有意思的。

2025-10-26 23:35:28 720

原创图解ResNet：深度学习的半壁江山

本文介绍了残差网络（ResNet）的核心思想和应用背景。残差网络由何恺明等人在2015年提出，解决了深度神经网络训练中的退化问题。传统深度网络随着层数增加会出现训练误差增大、梯度消失等问题，而残差网络通过引入残差结构（F(x)+x）使网络更容易学习恒等映射（F(x)=0）。这种结构让网络可以绕过不必要的特征变换，保留原始信息，同时允许在需要时进行特征修正。

2025-10-23 08:15:00 1673

原创图解AlexNet：开启卷积神经网络的起飞之路

先来了解一下AlexNet的背景，AlexNet发表于2012年，这一年在深度学习历史上是里程碑式的。第一个卷积神经网络是LeNet，但是让卷积神经网络扬名立万的却是AlexNet。在2012年的全球图像识别竞赛ILSVRC中，AlexNet将错误率直接拉低10%，让人惊掉下巴，自此以后，在卷积神经网络一路开挂，在深度学习领域取得了瞩目的进展。也正是AlexNet创新式的用多块显卡训练网络，也造就了日后的巨头英伟达。而在今年3月份，AlexNet的源码也终于正式开源。

2025-10-19 16:24:27 762

原创如何用洗澡拧热水阀去类比理解CNN反向传播原理

1、问题转化：使得网络模型表现最佳，需要不断降低Loss函数值，进而需要调整权重。2、找到最佳权重的方法：由于网络模型表现出来的函数是一个非凸函数，非常复杂，我们没有办法用传统求导的方法求极值点，只能用梯度下降的办法，一点一点优化，找到最终我们想要的权重。3、梯度下降求梯度用到链式法则：我们网络模型是很多层前后连接，前面层的输出是后面层的输入，因此可以视为一个复合函数，复合函数的求导方法就是链式法则。4、网络的真实训练过程：网络在真实训练过程中，我们不可能一张张的去训练，这样效率太低

2025-10-15 20:31:56 937

原创图解卷积神经网络原理：CNN到底是如何认识一张图片

本文以图解方式通俗讲解卷积神经网络(CNN)的基本原理。首先介绍CNN通过卷积层、池化层和全连接层将图像转化为概率的过程。重点解析了卷积运算的本质是滑动窗口的加权求和操作，并说明其权值共享特性。通过实例展示了卷积核如何提取图像特征（如边缘检测），并解释了填充(padding)的作用。文章还详细说明多维卷积中通道数与卷积核的关系，以及激活函数、池化层的作用机制。最后阐述全连接层如何整合特征并进行分类，通过softmax函数输出概率。全文避免复杂公式，用直观图示帮助读者理解CNN从图像输入到分类输出的完整流程。

2025-10-12 21:41:31 1047

weixin_43875437的博客