目标检测与图像编解码器技术解析
1. Faster R - CNN 训练解析
1.1 Faster R - CNN 架构与训练特点
Faster R - CNN 因其独特架构,不能像常规 CNN 那样训练。若网络两部分分开训练,各部分的特征提取器权重无法共享。其完整架构可处理任意输入大小的图像。
1.2 RPN 训练
- 输入输出 :RPN 的输入是图像,输出是感兴趣区域(RoIs)列表。每张图像有 H × W × k 个提议(H 和 W 是特征图大小,k 是锚框数量),此时不考虑物体类别。
- 采样技术 :直接训练所有提议较困难,因为图像大多是背景,网络会倾向于预测背景。所以采用采样技术,构建 256 个真实锚框的小批量,其中 128 个为正样本(包含物体),128 个为负样本(仅含背景)。若正样本少于 128 个,则使用所有正样本,其余用负样本填充。
1.3 RPN 损失
RPN 损失比 YOLO 简单,由两项组成:
- 各项含义 :
- i 是训练批次中锚框的索引。
- pi 是锚框为物体的概率,pi 是真实值(正样本为 1,否则为 0)。
- ti 是坐标细化向量,ti 是真实值。
- Ncls 是训练小批量中真实锚框的数量。
- Nreg 是可能的锚框位置数量。
- Lcls 是两类(物体和背景)的对数损失。
- λ 是平衡损失两部分的参数。
超级会员免费看
订阅专栏 解锁全文
2285

被折叠的 条评论
为什么被折叠?



