这是本学期一门课程的论文。(注:本人看过的行为识别特征提取方面的文章就10来篇,所以本综述大部分内容是参考其他人的综述的,有些并不是自己的成果,个人功底还没这么雄厚…)
行为识别特征提取综述
摘要
人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。本文将较全面的总结了目前行为识别中特征提取的方法,并将其特征划分为全局特征和局部特征,且分开介绍了其优缺点。
关键字: 行为识别 特征提取 全局特征 局部特征
1. 前言
如今人体行为识别是计算机视觉研究的一个热点,人体行为识别的目标是从一个未知的视频或者是图像序列中自动分析其中正在进行的行为。简单的行为识别即动作分类,给定一段视频,只需将其正确分类到已知的几个动作类别,复杂点的识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方,在干什么事情,即所谓的“W4系统”。
下面将4个方面对行为识别做初步介绍。
1.1 行为识别应用背景
人体行为识别应用背景很广泛,主要集中在智能视频监控,病人监护系统,人机交互,虚拟现实,智能家居,智能安防,运动员辅助训练,另外基于内容的视频检索和智能图像压缩等有着广阔的应用前景和潜在的经济价值和社会价值,其中也用到了不少行为识别的方法。
1.2 行为识别研究历史
行为识别分析的相关研究可以追溯到1975年Johansson[1]的一个实验,作者提出了12点人体模型,这种描述行为的点模型方法对后来基于人体结构的行为描述算法起到了重要的指导作用。从那以后,行为识别的研历史究进展大致可以分为以下3个阶段,第1个是20世纪70年代行为分析的初步研究阶段,第2个是20世纪90年代行为分析的逐步发展阶段,第3个是最近几年来行为分析的快速发展阶段。从文献[2]~[7]这6篇较有名的行为识别综述论文可以看出, 研究行为识别的人数在不断增加,论文数量也是猛增,并且产生了许多种重要的算法和思想。
1.3 行为识别方法分类体系
关于视觉上人体运动分析和识别的方法论体系有很多种。Forsyth[8]等人侧重与将动作从视频序列中人的姿态和运动信息恢复过来,这属于一个回归问题,而人体行为识别是一个分类问题,这2个问题有很多类似点,比如说其特征的提取和描述很多是通用的。Turaga[5]等人将人体行为识别分为3部分,即移动识别(movement),动作识别(action)和行为识别(activity),这3种分类分别于低层视觉,中层视觉,高层视觉相对应。Gavrila[9]采用2D和3D的方法来分别研究人体的行为。
对于行为识别方法论的划分中,最近出现了一种新的划分[7], Aggarwal将人体行为研究分为2大类,其一是基于单个层次来实现,其二是基于等级体系来实现。单层实现由分为时空特征和序列特征2种,等级体系实现分为统计方法,句法分析法和基于描述的方法3种。图1 Aggarwal对行为识别方法论体系的层次结构图。
图1 行为识别方法层次结构
该分类体系比较完善,也能很好的体现目前的研究进展。按照Turaga的3个层次划分理论,目前关于行为识别基本上还停留在第二个阶段,即action识别。而action识别比现实生活中的行为较简单,所以我们识别这些行为只需对这些行为进行正确的分类即可。这样一个行为识别系统就分成了行为特征提取和分类器的设计两个方面,通过对训练数据提取某种特征,采用有监督或无监督来训练一个分类模型,对新来的数据同样提取特征并送入该模型,得出分类结果。基于这个思想,本文主要是从行为识别的特征提取方面做了一个较为全面的介绍。
1.4 行为识别研究难点
行为识别发展至今,取得了很大的进展,在低层,中层和高层都取得了一定的突破,但是行为识别算法并不成熟,目前不存在一个算法适合所有的行为分类,3个视觉层次中都还有很多严峻的问题有待解决。其研究的难点主要体现在以下几个方面:
1.4.1 动作类内类间的变化太大
对于大多数的动作,即使是同一动作都有不同的表现形式。比如说走路,可以在不同的背景环境中完成,走路的速度也可以从慢到快,走路的步长亦有长有短。其它的动作也有类似的结果,特别是一些非周期的运动,比如过马路时候的走路,这与平时周期性的走路步伐明显不同。由此可见,动作的种类本身就很多,再加上每一种类又有很多个变种,所以给行为识别的研究带来了不少麻烦。
1.4.2 环境背景等影响
环境问背景等因素的影响可谓是计算机视觉各个领域的最大难点。主要有视角的多样性,同样的动作从不同的视角来观察会得到不同的二维图像;人与人之间,人与背景之间的相互遮挡也使计算机对动作的分类前期特征提取带来了困难,目前解决多视觉和遮挡问题,有学者提出了多摄像机融合通过3维重建来处理;另外其影响因素还包括动态变化和杂乱的背景,环境光照的变化,图像视频的低分辨率等。
1.4.3 时间变化的影响
总所周知,人体的行为离不开时间这个因素。而我们拍摄的视频其存放格式有可能不同,其播放速度有慢有快,这就导致了我们提出的系统需对视频的播放速率不敏感。
1.4.4 数据的获取和标注
既然把行为识别问题当成一个分类问题,就需要大量的数据来训练分类模型。而这些数据是视频数据,每一个动作在视频中出现的位置和时间都不确定,同时要考虑同一种动作的不同表现形式