论文笔记:A Critical Review of Action Recognition Benchmarks

本文回顾了2004年至2012年间推出的行动识别数据集,并按其生成条件进行分类。早期数据集受限于实验室环境,后期数据集如从影视资料或YouTube收集的,则更接近真实世界情境。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇论文简要介绍了2004-2012年被提出的action recognition的数据集,包括KTM、HMDB51,UCF50,ASLAN等18个。虽然论文中根据数据集生成条件(拍摄环境)将其大致分为实验室特定拍摄(controlled sets)、影视数据(TV/MP)、非限制拍摄(in the wild),但这并不是行文的主要目的。

论文想通过对这些数据集的分析(包括类别、时长、拍摄状况、内容、技术细节等)以及数据集上的最好准确率,来说明哪些旧的数据集可能已经不具有太大的挑战。同时,从这些分析中可以看出数据集与现实情况(real-world)的差距(gap)。

各种数据集的比较

早些年的数据集(KTH、UIUC1等)是理想环境下构建的(“in the lab”),通常会有很强的限制条件,比如动作都是同一个做的,这样的话,recognition的难度与现实情况下的相比会大打折扣。


后来出现的一些数据集是从电视电影等精良制作的视频中收集的,这些视频的背景会复杂得多,也更有难度。但由于是影视作品的镜头,因此大都画面比较清晰、角度好、遮挡少,因此也与现实情况有一定差距。


而新近提出的有人们上传到YouTube的视频中收集的数据集则更加接近真实情况,而且还会有很多相机抖动或移动(camera motion)带来的挑战。

各类数据结果比较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值