- 博客(13)
- 资源 (4)
- 收藏
- 关注
原创 YOLO-V2 (学习记录)
YOLOv2目标检测算法流程解析 流程概述: 输入图像经Darknet-19骨干网络提取特征 融合浅层特征提升小目标检测 通过5个K-means生成的Anchor Box预测目标 最终输出13×13×125的特征图 核心改进: √ 引入Anchor机制 √ Darknet-19骨干网络 √ 多尺度训练 √ 细粒度特征融合 技术细节: K-means聚类生成先验框,使用1-IOU作为距离度量 损失函数包含坐标、置信度和分类三部分 输出特征图每个cell预测5个anchor box 性能特点: 优势:实时性好,
2025-06-03 22:21:19
1412
原创 R-CNN 模型算法流程梳理
R-CNN是2014年提出的经典目标检测方法,采用多阶段处理流程:1)使用Selective Search生成约2000个候选框;2)将每个候选框缩放后输入CNN(如AlexNet)提取特征;3)用SVM分类器判断类别;4)通过回归器调整边界框位置。该方法存在三个主要局限:CNN特征提取与后续步骤分离(非端到端)、候选框变形影响精度、处理速度极慢(每个框独立计算)。这些缺点促使了Fast R-CNN等改进模型的诞生。R-CNN名称中的"R"代表区域(Region),与循环神经网络(RNN
2025-05-30 11:34:17
975
原创 Batch Normalization 的原理
BatchNormalization(BN)是一种用于加速深度神经网络训练的技术,通过标准化每一层的输入使其具有零均值和单位方差。其核心步骤包括:计算小批量的均值和方差,进行标准化,并引入可学习的缩放和平移参数以保持模型表达能力。BN能缓解内部协变量偏移,稳定训练过程,允许使用更高学习率,并起到一定正则化作用。训练时使用当前批次的统计量,推理时则采用滑动平均值。BN有效解决了梯度不稳定等问题,提高了网络收敛速度和训练稳定性。
2025-05-29 21:53:57
1356
原创 K-means聚类算法--原理及代码
K-means是一种经典的无监督聚类算法,通过迭代优化将数据划分为K个簇,使簇内样本相似度高。算法流程包括初始化中心点、样本分配、中心点更新等步骤,目标是最小化簇内平方误差。其优点是简单高效,但对初始中心敏感且需预设K值。文章通过Python代码演示了K-means在模拟数据上的应用,包括数据处理、聚类实现和结果可视化,并分析了算法的优缺点。
2025-05-29 21:28:37
1582
原创 Darknet-19 模型结构-pytorch代码
Darknet-19是YOLOv2采用的特征提取网络,包含19个卷积层和5个池化层,结构简洁高效。其特点包括:使用3×3和1×1卷积核组合,每层后接BatchNorm和LeakyReLU激活;输入224×224图像时输出7×7×1024特征图。网络采用金字塔式下采样结构,通道数从32逐步增加到1024。当用于YOLOv2时,输入调整为416×416,最后几层需替换为检测头输出边界框预测。该网络平衡了计算效率和特征提取能力,为后续目标检测任务提供了良好的基础特征。
2025-05-29 19:05:28
471
原创 车道线模型选择与分析--智能驾驶路线识别
本文对比了当前主流的6种车道线检测模型(Ultra-FastLane、LaneATT、YOLOP、SCNN、ENet-SAD、CurveLane-NAS),从网络结构、检测精度、运行速度、参数量等维度进行了全面分析。通过精度-速度折中图展示了各模型性能差异,并针对不同应用场景(实时系统、高精度需求、多任务检测、轻量部署、研究实验)给出了选型建议。特别指出Ultra-FastLane适合实时部署,LaneATT和SCNN适合高精度场景,YOLOP适合多任务需求,ENet-SAD适合轻量部署,而CurveLan
2025-05-29 18:05:02
1035
原创 SCNN(Spatial CNN) 模型学习记录
SCNN是一种专为车道线检测设计的神经网络架构,通过在特征图的空间维度上进行四方向(上下左右)信息传播,有效捕捉车道线的长距离空间依赖关系。其核心模块将特征图沿不同方向拆分为切片,通过类似RNN的逐行/列传播机制,结合1D卷积和残差连接增强空间上下文建模能力。相比传统CNN的局部感受野,SCNN在保持特征图形状不变的前提下显著提升了细长、连续目标的检测性能,尤其适用于交通场景中的车道线识别任务。该方法已应用于多项实际工程并在相关竞赛中取得优异表现。
2025-05-29 14:57:54
1261
原创 ResNet-模型架构代码
ResNet(Residual Network)由何恺明等人在 2015 年提出,荣获了当年 ImageNet 挑战赛的冠军。其主要创新在于 残差学习(residual learning),通过残差块(residual block)解决了深层网络中梯度消失和退化问题
2025-05-28 19:29:36
1133
原创 SSD模型--关键信息记录
SSD(Single Shot MultiBox Detector)是一种高效的单阶段目标检测算法。该论文提出了一种端到端的检测框架,通过多尺度特征图预测和默认框机制,在保持较高精度的同时实现了实时检测速度。SSD的创新在于:1)使用不同分辨率的特征图检测不同大小的目标;2)每个特征图位置预设多种尺寸和比例的默认框;3)联合优化分类和定位损失。相比两阶段方法(如R-CNN系列),SSD简化了检测流程,更适用于视频监控、自动驾驶等实时场景,并可部署到移动设备。实验表明SSD在速度和精度上取得了良好平衡。
2025-05-27 17:01:32
2660
原创 U-Net--学习记录
U-Net是一种用于语义分割的卷积神经网络,采用U形结构,包含编码器、解码器和跳跃连接。它支持二分类和多分类交叉熵损失计算,并采用加权像素级损失解决类不平衡问题。论文中U-Net输入572x572图像,输出388x388,通过弹性形变等数据增强训练。现代实现多采用same padding保持输入输出尺寸一致。U-Net及其变体(如U-Net++、3D U-Net)广泛应用于医学图像、卫星图像等领域的分割任务。
2025-05-27 15:40:39
1173
原创 深度学习常见的激活函数及图像
本文总结了当前常见的激活函数,并将其分类为经典基础函数、改进型函数和新一代函数。经典基础函数包括ReLU、Sigmoid、Tanh和Softmax,这些函数在神经网络中广泛应用。改进型函数如LeakyReLU、PReLU和ELU,通过引入参数或调整负值处理方式,解决了经典函数的一些问题。新一代函数如SiLU、Swish、GELU和Mish,具有更平滑的梯度和更强的非线性表达能力,适用于深层网络和复杂任务。每种激活函数都有其独特的公式、图像和特点,适用于不同的应用场景。
2025-05-21 18:46:19
3195
1
原创 深度学习CNN基础网络架构
卷积神经网络(CNN)的基础网络架构包括多个经典模型,每个模型都有其独特的特点和应用场景。LeNet-5是最早的卷积网络,适用于轻量设备,但已不常用于目标检测。AlexNet是深度CNN的启蒙,虽然已淘汰,但引入了ReLU激活函数和Dropout正则化等技术。VGG网络结构简单,参数多,常用于目标检测,但不适合轻量设备。GoogLeNet/Inception通过多分支结构实现高效计算,适合目标检测和轻量设备。ResNet通过残差结构解决了深层网络退化问题,适用于多种任务,但不同版本对轻量设备的适应性不同。D
2025-05-20 12:28:00
2565
原创 YOLO_v1学习记录
YOLOv1目标检测模型解析与实现 YOLOv1采用24层卷积+2层全连接的架构,输入448x448固定尺寸图像,输出7x7网格的预测结果。每个网格单元预测2个框(x,y,w,h,p)和20类分类概率。损失函数包含四部分加权平方误差:坐标回归(5倍权重)、尺寸回归(平方根处理)、置信度(含目标权重更高)和分类损失。关键技术包括IOU评估标准、网格化预测机制和全连接层设计。模型通过将检测任务转化为回归问题实现了端到端训练,但存在对小目标和密集目标检测的局限性。
2025-05-19 22:12:42
747
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅