SSD 設計

Multi-scale feature maps for detection
- 在骨幹後方,加了許多的卷積層
- 使用多種尺度的特徵圖(共6種),進行預測
Convolutional predictors for detection
- 在前面提到的多種尺度特徵圖,再經過 3x3 卷積運算後,得到該尺度下的檢測輸出
Default boxes and aspect ratios
- 這些 default boxes 與 Faster RCNN 中的 anchor 類似,差別在於 SSD 中的 default box 是按照尺寸被分配至不同尺度中
- 每個尺度特徵圖上的每個網格,都會有 k 個物件預測值 (k 在不同尺度下,數值不同)
- 每個物件預測值,都包含 c 個類別的機率分布,與 4 個位置相關輸出
- 最終在尺寸為 m x n 的特徵圖上,會得到
個輸出值

訓練
Matching Strategy
- 將與 ground-true 物件之 Jaccard overlap 最大的 default box 視為正樣本 (相匹配)
- 將與 ground-true 物件之 Jaccard overlap > 0.5的 default box 視為正樣本 (相匹配)
- 因此一個 gounrd-true 可能對應到多個 default box 負責預測
Training Objective

- 符號
: 第 i 個 default box 與第 j 個 ground true 是否匹配,是的話 1 否則為 0
- N : 具有匹配的 default box 數量
: confidence loss,使用的是 softmax 損失
: localization loss,使用的是 smooth L1
Choosing Scales and Aspect Ratios for Default Boxes
- 在處理多尺度物件時,許多方法是將圖像縮放至不同尺寸後,在這些尺寸下進行計算,最後合併所有處度的結果
- 如果是透過不同尺度的特徵圖,同樣可以達到類似的效果,而且因為不同尺度的特徵圖是共享計算量的,因此可以節省計算
- SSD 中,按模型輸出時採用的特徵圖尺度數 m ,分配每個特徵圖使用的 default box 尺度 :


- 符號解釋
: 特徵圖中最小尺度的一個 (論文中為
=0.2)
: (論文中為
=0.9)
: default box 長寬比
: default box 的寬 (透過長寬比與尺度可以計算出)
: default box 的高 (透過長寬比與尺度可以計算出)
: 對於長寬比為 1 的 default box,額外增加的一系列尺度 (用來銜接尺度間差異)
Hard Negative Mining
- Two stage 目標檢測方法常見的問題是正負樣本不均 (大量沒有物體的區域所產生)
- 訓練時,只取出最難的一部份負樣本,使正負樣本比例為 1:3
- 困難樣本的判定是將所有負樣本按 confidence loss 降序排列後,頭部的部分
- 這麼做能加速收斂,並且訓練時更穩定
本文深入探讨SSD(Single Shot MultiBox Detector)的设计原理,包括多尺度特征图的使用、默认框的设置策略、匹配策略、训练目标以及如何选择合适的尺度和长宽比。重点介绍了如何通过多尺度特征图处理不同大小的物体,以及如何通过硬负样本挖掘优化训练过程。
811

被折叠的 条评论
为什么被折叠?



