52、高分辨率视频目标检测与音频/语音编码量化算法研究

最新推荐文章于 2025-09-19 10:18:53 发布

embedding5hiker

最新推荐文章于 2025-09-19 10:18:53 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络前沿探索文章标签：高分辨率视频目标检测音频编码

本文链接：https://blog.youkuaiyun.com/embedding5hiker/article/details/153708938

神经网络前沿探索专栏收录该内容

86 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高分辨率视频目标检测与音频/语音编码量化算法研究

高分辨率视频目标检测算法

提出的算法

在处理高分辨率视频帧时，现有的算法通常需要对输入图像进行缩放，这会导致小尺寸目标的丢失。为了解决这个问题，我们提出了一种基于 CNN YOLO 的算法，具体步骤如下：
1. 帧分离 ：将输入帧 $I$（尺寸为 $H \times W$）划分为重叠的块 $C_{i,j}$（尺寸为 $c_h \times c_w$），其中 $i = 0, \cdots, H/c_h - 1$，$j = 0, \cdots, W/c_w - 1$。步长计算为块大小加上 10% 的重叠部分，重叠大小可根据输入帧分辨率或目标大小进行调整。
2. 块分类 ：将每个块输入到 YOLO 网络中。对于块 $C_{i,j}$，计算每个类别 $Class_l$（$l = 0, \cdots, classNumber - 1$）的条件类别概率 $Pr(Class_l|C_{i,j})$。同时，为每个块 $C_{i,j}$ 声明 $bbNumber$ 个感兴趣区域（RoI）$B^k_{i,j}$（$k = 0, \cdots, bbNumber - 1$）。每个 RoI $B^k_{i,j}$ 确定以下值：
- $B^k_{i,j}(x, y)$：相对于整个帧 $I$ 的左上角坐标。
- $B^k_{i,j}(w, h)$：相对于整个帧 $I$ 预测的宽度和高度。
- 置信度预测 $Pr(B^k_{i,j})$：目标检测概率。如果该块中不存在目标，则置信度分数应为零，即 $Pr(B^k_{i,j}) = 0$。
3.