Action Recognition

本文介绍了行为识别领域的核心任务,即视频分类及行为时间定位,并列举了一些常见数据集和近期流行方法的效果对比,如Two-stream、C3D+iDT+linearSVM等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Action Recognition

最近关注了行为识别的领域,这个领域主要任务是视频分类,输入一个短视频,经过训练出来的分类器,得到正确的类别。但是一个视频如果存在多个行为,那么这个任务将会变成,输入一个短视频,经过预先训练的分类器,不仅要得到每一个行为的类别,还要得到行为开始时间和结束时间。这样,这个任务的难度提高不少,也更具有挑战性。
为了方便大家进行对比实验,我把目前的方法以及效果粘贴出来,持续更新。

常见的数据集如下:
UCF101: http://crcv.ucf.edu/data/UCF101.php
HMDB51: http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
THUMOS 15:http://www.thumos.info/home.html
Sports-1M:http://cs.stanford.edu/people/karpathy/deepvideo/
YouTube-8M:https://research.google.com/youtube8m/download.html
ActivityNet:http://activity-net.org/download.html
FCVID:http://bigvid.fudan.edu.cn/FCVID/ (特别感谢姜育刚老师对FCVID的贡献)

MethodHMDB51UCF101
improved IDT57.2%85.9%
IDT high-dim encode61.1%87.9%
Two-stream[1]59.4%88%
C3D + iDT + linear SVM[2]-90.4%
DOVF + MIFS [3]75%95.3%
Very deep Two-stream[4]-91.4%
TSN [5]69.4%94.2%
Multi-stream[6]-92.2%

Reference:

[1]Two-Stream Convolutional Networks for Action Recognition in Videos

[2]Learning Spatiotemporal Features with 3D Convolutional Networks

[3]Deep local Video Feature for Action Recognition

[4]Towards Good Parctices for very deep two-stream convnets

[5]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 2016 ECCV

[6] Multi-Stream Multi-Class Fusion of Deep Networks for Video Classification

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值