CNN笔记

最新推荐文章于 2024-05-06 22:31:37 发布

原创最新推荐文章于 2024-05-06 22:31:37 发布 · 241 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络

目标检测算法专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了卷积神经网络中的关键概念和技术，包括BN层的作用、1x1卷积核的功能及其对参数量的影响、特征图的概念以及特征融合方法在目标检测与分割中的应用。此外，还详细介绍了早融合和晚融合两种特征融合策略。

BN(Batch Normalization)层原理与作用
- 作用：
  - 加速网络的收敛速度
  - 让网络训练变得容易
  - 简化调参过程
  - 提高网络泛化能力，抑制过拟合（争议）
1*1卷积核的作用
- 1x1卷积的作用
  1. 实现跨通道（channels）的信息交互和整合
  2. feature map通道数上的降维（参数是卷积权重）
  3. 增加非线性映射次数
- 1x1卷积核如何降低参数量
全连接层
padding
1. pytorch的padding的理解和操作
  - feature map大小就是边长，feature map数量才是滤波器数量。边长计算遵从公式
【CNN】理解卷积神经网络中的通道 channel
- 深度、通道（channels）、卷积核数量、feature map
- 计算：
  - 卷积核中的27（长*宽*channels）个数字与分别与样本对应相乘后，再进行求和
  - 深度最后要加在一起
  - 多个卷积核导致深度增加
- channels分类：
  1. 最初输入的图片样本的 channels ，取决于图片类型，比如RGB；
  2. 卷积操作完成后输出的 out_channels ，取决于卷积核的数量。此时的 out_channels 也会作为下一次卷积时的卷积核的 in_channels；
  3. 卷积核中的 in_channels ，刚刚2中已经说了，就是上一次卷积的 out_channels ，如果是第一次做卷积，就是1中样本图片的 channels 。
特征
1. 理解卷积神经网络CNN中的特征图 feature map
```
   1. 除了第一次输入，其他 feature map就是每层的深度（channels）。见”[channels分类]()“
   2. “所以假设我们加到100种滤波器，每种滤波器的参数不一样，表示它提出输入图像的不同特征，例如不同的边缘。这样每种滤波器去卷积图像就得到对图像的不同特征的放映，我们称之为 Feature Map”
   3. 隐层的参数个数和隐层的神经元个数无关，只和滤波器的大小和滤波器种类的多少有关
   4. 隐层的神经元个数和原图像，也就是输入的大小（神经元个数）、滤波器的大小和滤波器在图像中的滑动步长都有关。
```
2. 特征融合（文章写的不赖）
  1. 融合不同尺度的特征是提高分割性能的一个重要手段。很多工作通过融合多层来提升检测和分割的性能
```
  - 低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。
  - 高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。
```
  2. 特征融合方法介绍：
    - 早融合(Early fusion): 先融合多层的特征，然后在融合后的特征上训练预测器（只在完全融合之后，才统一进行检测）。这类方法也被称为skip connection，即采用concat、add操作。这一思路的代表是Inside-Outside Net(ION)和HyperNet。两个经典的特征融合方法：
      - concat：系列特征融合，直接将两个特征进行连接。两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q；
      - add：并行策略，将这两个特征向量组合成复向量，对于输入特征x和y，z = x + iy，其中i是虚数单位。
    - 晚融合(Late fusion)：通过结合不同层的检测结果改进检测性能（尚未完成最终的融合之前，在部分融合的层上就开始进行检测，会有多层的检测，最终将多个检测结果进行融合）。这一类研究思路的代表有两种：
      - feature不融合，多尺度的feture分别进行预测，然后对预测结果进行综合，如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
      - feature进行金字塔融合，融合后进行预测，如Feature Pyramid Network(FPN)等。
  3. 特征融合方法汇总：
    1. 早融合：用经典的特征融合方法：在现有的网络（如VGG19）中，用concat或add融合其中的某几层；
      - FCN、Hypercolumns—>add
      - Inside-Outside Net(ION)、 ParseNet 、HyperNet—>concat
      - 变种：用DCA特征融合方法代替concat和add操作；
    2. 晚融合：
      1. 采用类似特征金字塔网络（FPN）的思想，对特征融合后进行预测。（FPN一般用于目标检测，提高小目标检测能力）三个变种：
        YOLO2的方法，只在金字塔的top-down路径的最后一层进行预测，此外还有 U-Net [31] and SharpMask for segmentation, Recombinator networks for face detection, and Stacked Hourglass networks for keypoint estimation.
        YOLO3的方法，在金字塔的每一层都进行预测
        FSSD的方法，对 FPN进行细微改造
      2. feature不融合，多尺度的feture分别进行预测，然后对预测结果进行综合，如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
    3. 用一个具有高低特征融合能力的网络替代普通的网络，如Densenet；
    4. 不进行高低层特征融合，而是在高层特征预测的基础上，再用底层特征进行预测结果的调整
  4. YOLOv3——引入：FPN+多尺度检测 (目标检测)(one-stage)(深度学习)(CVPR 2018)
    
    YOLO v3采用上采样和融合做法，融合了3个尺度（13*13、26*26和52*52），在多个尺度的融合特征图上分别独立做检测，最终对于小目标的检测效果提升明显。
    1. FPN
    2. one-stage
基础概念：
1. 目标分割 ——>目标检测 ——>目标识别 ——>目标跟踪
  - 目标分割：像素级的对前景与背景进行分类，将背景剔除；
  - 目标检测：定位目标，确定目标位置及大小；
  - 目标识别：定性目标，确定目标是什么；
  - 目标跟踪：追踪目标运动轨迹。
2. 查准率、查全率与F1
  - TP+FP+TN+FN = 样例总数
  - 情况预测结果
    正例反例
    真正例 true positive 假反例 false negative
    假正例 false positive 真反例 true negative
    - 真实情况与预测结果相同？真（true）：假（false）；
    - 正例（positive）与反例（negative）取决于预测结果
  - 查准率： $\frac{TP}{TP+FP}$
  - 查全率： $\frac{TP}{TP+FN}$