
视频分类
文章平均质量分 90
半分热度
这个作者很懒,什么都没留下…
展开
-
2021-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
paper: https://arxiv.org/abs/2103.14030code: https://github.com/microsoft/Swin-Transformer将Transformer从NLP领域迁移到CV领域面临两个挑战:1.与文本相比图像中的视觉实体尺度变化剧烈,NLP的scale是标准固定的,而CV的scale变换范围非常大。2.图像分辨率高,带来了多尺度建模与计算量巨大的问题,CV中使用Transformer的计算复杂度是图像尺度的平方。因为存在这两个问题,所以iGPT原创 2021-07-02 09:08:22 · 405 阅读 · 0 评论 -
2017-Appearance-and-Relation Networks for Video Classification视频分类中的外观与关系网络
arxiv: https://arxiv.org/abs/1711.09125 github: https://github.com/wanglimin/ARTNet本文提出一种新的架构,学习视频时空特征,称为外观和关系网络(Appearance and Relation—ARTNet),以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块,称为SMART,来构建的,其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支.原创 2021-03-24 15:25:09 · 277 阅读 · 0 评论 -
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification
论文地址:https://arxiv.org/pdf/1711.08200本文最大的贡献就是提出了一种模型迁移的方法,同时引入一种新的时域层temporal layer给可变时域卷积核深度建模,这个层叫做temporal transition layer(TTL) ,作者将这个新的temporal layer嵌入到提出的3D CNN,该网络叫做Temporal 3D ConvNets(T3D)。本文将DenseNet 结构从2D扩展到3D中。另一个贡献是将知识预先训练好的2D CNN转移到随记初始化的3原创 2021-03-23 14:15:21 · 547 阅读 · 0 评论 -
2017-non-local neural networks非局部神经网络
这是一篇何凯明挂名的文献。intro: CVPR 2018. CMU & Facebook AI Researcharxiv: https://arxiv.org/abs/1711.07971github(Caffe2): https://github.com/facebookresearch/video-nonlocal-net卷积运输和循环运算都是一次处理一个局部邻域的构造快。在本文中,我们将非局部操作作为一个通用的构建快族来捕获长期依赖关系。作者受到NL-Means在图像去噪应用的原创 2021-03-22 21:21:40 · 821 阅读 · 0 评论 -
2018-A Teacher Student Network for Video Classification Using Fewer Frames
arxiv:https://arxiv.org/abs/1805.04668作者首先训练了一个教师网络,它查看视频中的所有帧。然后训练一个学生网络,其目标是只处理视频中的一小部分帧,并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验,结果表明所提出的学生网络在性能下降很小的情况下,推理时间可以减少30%。作者关注了一个最先进的模型,其性能在这个数据集上接近最好,将此模型作为教师网络,并训练了一个可比较的学生网络。在这项工作中,作者选择了分层RNN(hierarchical RN原创 2021-03-15 15:10:34 · 389 阅读 · 0 评论 -
基于keras和深度学习的视频分类实战(附代码)
该文章涉及到了模型微调、使用训练好的模型来进行视频分类。这是我在一个国外博客翻译过来的。作者首先通过train.py训练微调模型,之后用训练好的模型在predict_video.py进行视频分类。如果需要源码请留下邮箱。在执行图像分类时,我们:输入一幅图像到我们的CNN中;从CNN中获得预测;选择相应概率最大的标签。由于视频只是一系列帧,一种简单的视频分类方法是:1.循环播放视频文件中的所有帧2.对于每一帧,通过CNN传递帧3.对每个帧进行单独的分类,并且相互独立4.选择相应概率最大的标签翻译 2021-03-11 15:35:03 · 2150 阅读 · 25 评论 -
youtube-8m入门(数据集可视化,统计数据集,使用Bi-lstm进行分类)
这是一些可能与本次比赛有关的阅读材料。原始数据集文件:YouTube-8M:大型视频分类基准:https://arxiv.org/abs/1609.08675上届比赛:借助Context Gating进行视频分类的可学池:https : //arxiv.org/abs/1706.06905YouTube-8M视频理解挑战的猴子式解决方案:https://arxiv.org/abs/1706.05150大规模Youtube-8M视频理解的时间建模方法:https://arxiv.org/abs/1原创 2021-03-11 10:46:41 · 1923 阅读 · 0 评论 -
2017-基于视觉注意的视频分类时空模型A spatiotemporal model with visual attention for video classification
arxiv:https://arxiv.org/abs/1707.02069本文的重点是建立一个时空模型来处理包含旋转和尺度变化的运动对象的视频。建立了卷积神经网络(CNNs)和递归神经网络(RNNs)相结合的序列数据分类模型,研究了在CNN阶段引入注意模块对视频分类的有效性。在移动MNIST数据集上,通过旋转和缩放,证明了该时空模型的优越性。本文的创新之处在于提出了一种基于视觉注意的时空模型,该模型能够对具有旋转和尺度变化的多目标具有鲁棒性。作者将MNIST数据集进行了旋转、缩放、旋转和缩放,然后提出原创 2021-03-09 15:57:34 · 364 阅读 · 0 评论 -
2017-UTS提交给谷歌的YouTube-8M挑战赛UTS submission to Google YouTube-8M Challenge 2017
intro: CVPR’17 Workshop on YouTube-8Marxiv: https://arxiv.org/abs/1707.04143github: https://github.com/ffmpbgrnn/yt8mYouTube-8M提供的帧级数据集分为静态图像特征和音频特征,静态图片特征是由ImageNet上预先训练的Inception network提取的,音频特征是由YouTube-8M第一个版本上训练的VGG模型提取的。摘要在这篇文章中,我们提出了我们的解决方案,谷歌Y原创 2021-03-03 16:13:04 · 399 阅读 · 0 评论 -
2017-用于视频理解的分层深度递归体系结构Hierarchical Deep Recurrent Architecture for Video Understanding
Hierarchical Deep Recurrent Architecture for Video Understandingarxiv: https://arxiv.org/abs/1707.03296原创 2021-03-02 14:46:36 · 499 阅读 · 0 评论 -
2017-Aggregating Frame-level Features for Large-Scale Video classification聚合帧级功能以进行大规模视频分类
intro: Youtube-8M Challenge, 4th placearxiv: https://arxiv.org/abs/1707.00803贡献:1.根据信息最丰富的内容出现在视频中间,提出了RNN变体-双向RNN。3.1.12.提出的VLAD聚合方法与RNN相比计算成本较低。3.1.23.证明了融合多个模型总是有帮助的。摘要本文介绍了我们为Google Cloud和YouTube-8M视频理解挑战赛开发的系统,可以将其视为在大规模YouTube-8M数据集[1]之上定义的多标签原创 2021-03-01 10:04:22 · 645 阅读 · 0 评论 -
【2017】Learnable pooling with Context Gating for videoclassification借助Context Gating进行可学习的池化以进行视频分类
intro: CVPR17 Youtube 8M workshop. Kaggle 1st placearxiv: https://arxiv.org/abs/1706.06905github: https://github.com/antoine77340/LOUPE摘要当前的视频分析方法通常使用预训练的卷积神经网络(CNN)提取帧级特征。 然后,例如通过简单的时间平均或更复杂的递归神经网络(例如长短期记忆(LSTM)或门控递归单元(GRU))随时间聚合此类特征。 在这项工作中,我们修改了现有的视原创 2021-02-04 09:54:56 · 541 阅读 · 0 评论 -
【2017】Deep Learning Methods for Efficient Large Scale Video Labeling高效的大规模视频标记的深度学习方法
arxiv: https://arxiv.org/abs/1706.04572github: https://github.com/mpekalski/Y8M作者使用了两种方法来扩充数据集,1.交叉验证2.将一个视频切分成三部分,但是超过2部分并没有发现性能的提升。作者的最终模型是神经网络专家(MoNN),长期短期记忆(LSTM)[4]和门控递归单元(GRU)的混合物的加权集合。其中MoNN主要用于视频级特征。作者发现较大尺寸的模型表现更好。 对于相同大小的视频级模型,较宽的模型似乎比较深的模型更好原创 2021-02-01 12:10:02 · 340 阅读 · 0 评论 -
【2017】Large-Scale YouTube-8M Video Understanding with Deep Neural Networks借助深度神经网络对YT8M进行大规模视频理解
paper: https://arxiv.org/abs/1706.04488摘要视频分类问题已经研究了很多年。 卷积神经网络(CNN)在图像识别任务中的成功为研究人员创建更高级的视频分类方法提供了强大的动力。 由于视频具有时间内容,因此长期短期记忆(LSTM)网络成为方便的工具,可以对长期的时间线索进行建模。 两种方法都需要输入数据的大型数据集。 本文提供了三个模型,用于使用最近宣布的YouTube8M大规模数据集解决视频分类问题。 第一个模型基于帧池化方法。 基于LSTM网络的其他两个模型。 在第三原创 2021-01-22 08:55:11 · 468 阅读 · 0 评论 -
2017-【精读】Deep Feature Flow for Video Recognition用于视频识别的深度特征流
paper: https://arxiv.org/abs/1611.07715代码: https://github.com/msracver/Deep-Feature-Flow这篇文章提出了一个结合光流的快速视频目标检测和视频语义分割方法。文章有三个动机:1.在视频流的每一帧上用CNN计算特征太慢了。在目标检测和语义分割任务中,通用的做法是首先将图片送到一个深层卷积网络提取特征,再将特征送入相应的任务网络得到结果。在视频上进行目标检测或者语义分割任务时,如果继续使用单帧图片的方法,将有大量的时间耗原创 2021-01-18 09:48:10 · 1294 阅读 · 0 评论 -
2015-【精读】Fusing Multi-Stream Deep Networks for Video Classification
本文利用多模态线索进行视频分类,结合了音频信息进行建模,在UCF-101数据集上最后有音频与无音频信息实验结果相差0.4%。使用了三个卷积神经网络分别对空间、短期运动和音频线索进行建模,在卷积神经网络的空间和短期运动特征上进一步采用LSTM进行长期时间建模。然后使用提出的融合方法,自适应地学习每个类别的融合权重原创 2020-12-30 14:53:41 · 518 阅读 · 0 评论 -
2015【精读】Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification
Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification在混合深度学习框架中为视频分类建模时空线索本篇文章的贡献:1)提出了一种用于视频分类的端到端混合深度学习框架,该框架不仅可以对短期空间运动模式进行建模,还可以对以可变长度视频序列作为输入的长期时间线索进行建模。2)采用LSTM在空间和短期运动特征之上对长期时间线索进行建模。 我们显示这两个功能都可以与LSTM很好地配合原创 2020-12-22 10:02:29 · 1045 阅读 · 0 评论