高分辨率视频目标检测与音频/语音编码量化算法研究
高分辨率视频目标检测算法
提出的算法
在处理高分辨率视频帧时,现有的算法通常需要对输入图像进行缩放,这会导致小尺寸目标的丢失。为了解决这个问题,我们提出了一种基于 CNN YOLO 的算法,具体步骤如下:
1. 帧分离 :将输入帧 $I$(尺寸为 $H \times W$)划分为重叠的块 $C_{i,j}$(尺寸为 $c_h \times c_w$),其中 $i = 0, \cdots, H/c_h - 1$,$j = 0, \cdots, W/c_w - 1$。步长计算为块大小加上 10% 的重叠部分,重叠大小可根据输入帧分辨率或目标大小进行调整。
2. 块分类 :将每个块输入到 YOLO 网络中。对于块 $C_{i,j}$,计算每个类别 $Class_l$($l = 0, \cdots, classNumber - 1$)的条件类别概率 $Pr(Class_l|C_{i,j})$。同时,为每个块 $C_{i,j}$ 声明 $bbNumber$ 个感兴趣区域(RoI)$B^k_{i,j}$($k = 0, \cdots, bbNumber - 1$)。每个 RoI $B^k_{i,j}$ 确定以下值:
- $B^k_{i,j}(x, y)$:相对于整个帧 $I$ 的左上角坐标。
- $B^k_{i,j}(w, h)$:相对于整个帧 $I$ 预测的宽度和高度。
- 置信度预测 $Pr(B^k_{i,j})$:目标检测概率。如果该块中不存在目标,则置信度分数应为零,即 $Pr(B^k_{i,j}) = 0$。
3.
超级会员免费看
订阅专栏 解锁全文
3295

被折叠的 条评论
为什么被折叠?



