Two-Stream Inflated 3D ConvNet (I3D)
HMDB-51: 80.9% and UCF-101: 98.0% 在Inception-v1 Kinetics上预训练

ConvNet+LSTM:每一帧都提feature后整视频pooling,或者每一帧提feature+LSTM。缺点,忽略了时间信息,open和close door会分错。
改进C3D:比二维卷积网络有更多的参数,缺点参数量大,不能imagenet pretrain,从头训难训。input 16帧 输入112*112,本文实现了C3D的一个变种,在最顶层有8个卷积层,5个pooling层和2个全联接层。模型的输入是16帧每帧112x112的片段。不同于论文中的实现是,作者在所有的卷积层和全联接层后面加入了BN层,同时将第一个pooling层的temporal stride由1变为2,来减小内存使用,增加batch的大小,这对batch normalization很重要。
双流网络:LSTM只抓住高层的卷积后的信息,底层的信息在某些例子上也非常重要,LSTM train 消耗很大。RGB帧和10个堆叠的光流帧,光流输入是2倍的光流帧(x,y水平垂直的channel),可以有效train
新双流:后面的融合部分改为3D卷积,3D pooling
双流 inflated 3D卷积:扩展2D卷积basemodel为3D basemodel卷积,卷积核和pooling增加时间维,尽管3D卷积可以直接学习时间特征,但是将光流加进来后会提高性能。

本文介绍了Inflated 3D ConvNet(I3D),一种用于视频理解的双流网络。通过将2D卷积网络膨胀为3D,I3D能捕获时间和空间信息。在Kinetics预训练后,I3D在HMDB-51和UCF-101上取得了高准确率。它结合RGB和光流信息,使用3D卷积和池化层,经过特定的网络结构调整,以平衡时间与空间维度。在训练和测试过程中,采用了多种数据增强技术,以提高模型性能。
最低0.47元/天 解锁文章
3898

被折叠的 条评论
为什么被折叠?



