视频分析技术:时间动作定位与近重复视频检索
在当今的视频处理领域,时间动作定位和近重复视频检索是两个重要的研究方向。时间动作定位旨在长未修剪视频中准确识别和定位动作实例,而近重复视频检索则致力于在大量视频数据中找出内容相近的视频。下面将详细介绍这两项技术的相关内容。
时间动作定位
时间动作定位技术在视频分析中具有重要意义,它能够帮助我们在长视频中精准地找到特定动作的发生时间和范围。
深度MIL网络
提出的网络主要由三个全连接层(fc 1、fc 2、fc 3)和一个MIL池化层组成。
- fc 1为中间层。
- fc 2为每个动作类别生成时间实例分数,其维度为C ∗ m(C是类别数量,m是每个动作类别的实例数量)。
- fc 3输出剪辑的边界偏移。
为了保留输入空间的时间信息,在fc 1和fc 2之前的连接中插入预定义的权重。若两层中的两部分是对应部分,则权重为w(实验中w设为0.8);否则为1 - w。
使用名为Noisy - and池化函数的全局池化函数来生成剪辑的动作分数,公式如下:
[P_c = g_z({p_c^j}) = \frac{\sigma(a(p_c^{\bar{j}} - b_c)) - \sigma(-ab_c)}{\sigma(a(1 - b_c)) - \sigma(-ab_c)}]
其中,(p_c^{\bar{j}} = \frac{1}{|j|}\sum_{j} p_c^j),(\sigma)是sigmoid函数。该函数旨在当实例级分数的均值超过一定阈值时激活包级分数(P_C)。参数(a)和(b_c)控制激活函数的形状,(b_c)是训练期
超级会员免费看
订阅专栏 解锁全文
1895

被折叠的 条评论
为什么被折叠?



