Local Compressed Video Stream Learning for Generic Event Boundary Detection

前由

通用事件边界检测旨在定位将视频分割成块的通用、无分类的事件边界。现有的方法通常需要在将视频帧馈送到网络之前对其进行解码,这包含显著的时空冗余并且需要相当大的计算能力和存储空间。为了解决这些问题,我们提出了一种新的压缩视频表示学习方法,用于事件边界检测,该方法完全利用压缩域中的丰富信息,即,RGB、运动矢量、残差和内部图像组(GOP)结构,而无需完全解码视频。具体而言,我们使用轻量级的ConvNets来提取GOP中的P帧的特征,并且空间信道注意模块(SCAM)被设计为基于具有双向信息流的压缩信息来细化P帧的特征表示

贡献点

1.我们改进了原来的SCCE提出了新的SCAM,细化的P-帧功能与I-帧功能,使用双向信息流。
2.我们建议利用LSTM模块来捕获时间信息,以获得更好的性能。

名词解释

1.GOP(group of pictures)

Group of Pictures (GOP) 在视频编码中是一个重要的概念。在视频压缩编码中,视频帧被分为不同类型,而 GOP 则定义了这些不同类型的帧如何被组织在一起。一个 GOP 由连续的视频帧组成,包括以下几种类型的帧:

I-frame(关键帧):Intra-coded picture,是一种独立的帧,它不依赖于其他帧来进行解码,通常包含完整的图像信息。在一个 GOP 中,通常第一帧是 I-frame。因为这样就能保证GOP不需要参考其他图像,可以独立解码。
P-frame(预测帧):Predicted picture,这些帧通过对前向或者后向的帧进行预测来进行编码,它们依赖于之前的一帧(通常是 I-frame 或者 P-frame)来进行解码。
B-frame(双向预测帧):Bi-directional predicted picture,这些帧通过对前后两帧进行预测来进行编码,它们依赖于之前和之后的帧来进行解码。

GOP 决定了这些不同类型的帧如何被安排组织在一起,以便进行有效的视频压

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值