鲸临城下-优快云博客

原创 YOLO-V2 （学习记录）

YOLOv2目标检测算法流程解析流程概述：输入图像经Darknet-19骨干网络提取特征融合浅层特征提升小目标检测通过5个K-means生成的Anchor Box预测目标最终输出13×13×125的特征图核心改进： √ 引入Anchor机制 √ Darknet-19骨干网络 √ 多尺度训练 √ 细粒度特征融合技术细节： K-means聚类生成先验框，使用1-IOU作为距离度量损失函数包含坐标、置信度和分类三部分输出特征图每个cell预测5个anchor box 性能特点：优势：实时性好，

2025-06-03 22:21:19 1412

原创 R-CNN 模型算法流程梳理

R-CNN是2014年提出的经典目标检测方法，采用多阶段处理流程：1）使用Selective Search生成约2000个候选框；2）将每个候选框缩放后输入CNN（如AlexNet）提取特征；3）用SVM分类器判断类别；4）通过回归器调整边界框位置。该方法存在三个主要局限：CNN特征提取与后续步骤分离（非端到端）、候选框变形影响精度、处理速度极慢（每个框独立计算）。这些缺点促使了Fast R-CNN等改进模型的诞生。R-CNN名称中的"R"代表区域（Region），与循环神经网络（RNN

2025-05-30 11:34:17 975

原创 Batch Normalization 的原理

BatchNormalization（BN）是一种用于加速深度神经网络训练的技术，通过标准化每一层的输入使其具有零均值和单位方差。其核心步骤包括：计算小批量的均值和方差，进行标准化，并引入可学习的缩放和平移参数以保持模型表达能力。BN能缓解内部协变量偏移，稳定训练过程，允许使用更高学习率，并起到一定正则化作用。训练时使用当前批次的统计量，推理时则采用滑动平均值。BN有效解决了梯度不稳定等问题，提高了网络收敛速度和训练稳定性。

2025-05-29 21:53:57 1356

原创 K-means聚类算法--原理及代码

K-means是一种经典的无监督聚类算法，通过迭代优化将数据划分为K个簇，使簇内样本相似度高。算法流程包括初始化中心点、样本分配、中心点更新等步骤，目标是最小化簇内平方误差。其优点是简单高效，但对初始中心敏感且需预设K值。文章通过Python代码演示了K-means在模拟数据上的应用，包括数据处理、聚类实现和结果可视化，并分析了算法的优缺点。

2025-05-29 21:28:37 1582

原创 Darknet-19 模型结构-pytorch代码

Darknet-19是YOLOv2采用的特征提取网络，包含19个卷积层和5个池化层，结构简洁高效。其特点包括：使用3×3和1×1卷积核组合，每层后接BatchNorm和LeakyReLU激活；输入224×224图像时输出7×7×1024特征图。网络采用金字塔式下采样结构，通道数从32逐步增加到1024。当用于YOLOv2时，输入调整为416×416，最后几层需替换为检测头输出边界框预测。该网络平衡了计算效率和特征提取能力，为后续目标检测任务提供了良好的基础特征。

2025-05-29 19:05:28 471

原创车道线模型选择与分析--智能驾驶路线识别

本文对比了当前主流的6种车道线检测模型（Ultra-FastLane、LaneATT、YOLOP、SCNN、ENet-SAD、CurveLane-NAS），从网络结构、检测精度、运行速度、参数量等维度进行了全面分析。通过精度-速度折中图展示了各模型性能差异，并针对不同应用场景（实时系统、高精度需求、多任务检测、轻量部署、研究实验）给出了选型建议。特别指出Ultra-FastLane适合实时部署，LaneATT和SCNN适合高精度场景，YOLOP适合多任务需求，ENet-SAD适合轻量部署，而CurveLan

2025-05-29 18:05:02 1035

原创 SCNN(Spatial CNN) 模型学习记录

SCNN是一种专为车道线检测设计的神经网络架构，通过在特征图的空间维度上进行四方向（上下左右）信息传播，有效捕捉车道线的长距离空间依赖关系。其核心模块将特征图沿不同方向拆分为切片，通过类似RNN的逐行/列传播机制，结合1D卷积和残差连接增强空间上下文建模能力。相比传统CNN的局部感受野，SCNN在保持特征图形状不变的前提下显著提升了细长、连续目标的检测性能，尤其适用于交通场景中的车道线识别任务。该方法已应用于多项实际工程并在相关竞赛中取得优异表现。

2025-05-29 14:57:54 1261

原创 ResNet-模型架构代码

ResNet（Residual Network）由何恺明等人在 2015 年提出，荣获了当年 ImageNet 挑战赛的冠军。其主要创新在于残差学习（residual learning），通过残差块（residual block）解决了深层网络中梯度消失和退化问题

2025-05-28 19:29:36 1133

原创 SSD模型--关键信息记录

SSD（Single Shot MultiBox Detector）是一种高效的单阶段目标检测算法。该论文提出了一种端到端的检测框架，通过多尺度特征图预测和默认框机制，在保持较高精度的同时实现了实时检测速度。SSD的创新在于：1）使用不同分辨率的特征图检测不同大小的目标；2）每个特征图位置预设多种尺寸和比例的默认框；3）联合优化分类和定位损失。相比两阶段方法（如R-CNN系列），SSD简化了检测流程，更适用于视频监控、自动驾驶等实时场景，并可部署到移动设备。实验表明SSD在速度和精度上取得了良好平衡。

2025-05-27 17:01:32 2660

原创 U-Net--学习记录

U-Net是一种用于语义分割的卷积神经网络，采用U形结构，包含编码器、解码器和跳跃连接。它支持二分类和多分类交叉熵损失计算，并采用加权像素级损失解决类不平衡问题。论文中U-Net输入572x572图像，输出388x388，通过弹性形变等数据增强训练。现代实现多采用same padding保持输入输出尺寸一致。U-Net及其变体（如U-Net++、3D U-Net）广泛应用于医学图像、卫星图像等领域的分割任务。

2025-05-27 15:40:39 1173

原创深度学习常见的激活函数及图像

本文总结了当前常见的激活函数，并将其分类为经典基础函数、改进型函数和新一代函数。经典基础函数包括ReLU、Sigmoid、Tanh和Softmax，这些函数在神经网络中广泛应用。改进型函数如LeakyReLU、PReLU和ELU，通过引入参数或调整负值处理方式，解决了经典函数的一些问题。新一代函数如SiLU、Swish、GELU和Mish，具有更平滑的梯度和更强的非线性表达能力，适用于深层网络和复杂任务。每种激活函数都有其独特的公式、图像和特点，适用于不同的应用场景。

2025-05-21 18:46:19 3195 1

原创深度学习CNN基础网络架构

卷积神经网络（CNN）的基础网络架构包括多个经典模型，每个模型都有其独特的特点和应用场景。LeNet-5是最早的卷积网络，适用于轻量设备，但已不常用于目标检测。AlexNet是深度CNN的启蒙，虽然已淘汰，但引入了ReLU激活函数和Dropout正则化等技术。VGG网络结构简单，参数多，常用于目标检测，但不适合轻量设备。GoogLeNet/Inception通过多分支结构实现高效计算，适合目标检测和轻量设备。ResNet通过残差结构解决了深层网络退化问题，适用于多种任务，但不同版本对轻量设备的适应性不同。D

2025-05-20 12:28:00 2565

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

kiki5862的博客