Local Compressed Video Stream Learning for Generic Event Boundary Detection

原创

已于 2024-05-15 16:53:27 修改 · 770 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

于 2024-03-25 19:54:29 首次发布

前由

通用事件边界检测旨在定位将视频分割成块的通用、无分类的事件边界。现有的方法通常需要在将视频帧馈送到网络之前对其进行解码，这包含显著的时空冗余并且需要相当大的计算能力和存储空间。为了解决这些问题，我们提出了一种新的压缩视频表示学习方法，用于事件边界检测，该方法完全利用压缩域中的丰富信息，即，RGB、运动矢量、残差和内部图像组（GOP）结构，而无需完全解码视频。具体而言，我们使用轻量级的ConvNets来提取GOP中的P帧的特征，并且空间信道注意模块（SCAM）被设计为基于具有双向信息流的压缩信息来细化P帧的特征表示

贡献点

1.我们改进了原来的SCCE提出了新的SCAM，细化的P-帧功能与I-帧功能，使用双向信息流。
2.我们建议利用LSTM模块来捕获时间信息，以获得更好的性能。

名词解释

1.GOP（group of pictures）

Group of Pictures (GOP) 在视频编码中是一个重要的概念。在视频压缩编码中，视频帧被分为不同类型，而 GOP 则定义了这些不同类型的帧如何被组织在一起。一个 GOP 由连续的视频帧组成，包括以下几种类型的帧：

I-frame（关键帧）：Intra-coded picture，是一种独立的帧，它不依赖于其他帧来进行解码，通常包含完整的图像信息。在一个 GOP 中，通常第一帧是 I-frame。因为这样就能保证GOP不需要参考其他图像，可以独立解码。
P-frame（预测帧）：Predicted picture，这些帧通过对前向或者后向的帧进行预测来进行编码，它们依赖于之前的一帧（通常是 I-frame 或者 P-frame）来进行解码。
B-frame（双向预测帧）：Bi-directional predicted picture，这些帧通过对前后两帧进行预测来进行编码，它们依赖于之前和之后的帧来进行解码。

GOP 决定了这些不同类型的帧如何被安排组织在一起，以便进行有效的视频压

最低0.47元/天解锁文章