3D卷积网络在动作识别中的应用:体育手势识别探索
1. 引言
运动是视觉感知的重要方面,与运动相关的刺激往往具有生物学意义。心理视觉实验表明,对场景进行完整详尽的测量并非解读其内容的必要条件。在动物世界中,部分运动信息就足以识别潜在食物,比如青蛙无需重构整个场景,就能区分苍蝇飞行和树叶飘落。
人类通过运动进行识别的能力,在约翰松的实验(移动光点显示实验)中得到了体现。实验中,移动演员的信息仅由附着在几个关节上的亮点提供。人们看到静态图像时,只能看到无意义的点状图案;但看到完整图像序列后,就能识别出跑步、行走等特征动作,甚至能分辨演员的性别。这表明运动本身可作为一种识别手段。
在计算机视觉领域,用自然语言描述视频场景需要叙述场景中发生的关键事件或动作。运动分析是充分利用图像序列时间连贯性的核心要素。研究表明,网络视频中平均35%的像素代表人类,因此从人类运动和活动的角度描述图像序列,对视频分析和索引具有潜在的判别性和相关性。这也解释了为何视频中的人类动作识别一直是计算机视觉领域的热门研究课题。不过,实际视频场景分析时,仅靠运动特征是不够的。结合运动特征(如光流)和视频帧中颜色像素值的空间特征的方法,在手工特征和卷积神经网络(CNNs)中都表现更好。
2. 动作识别问题概述
视频中人类动作识别问题应用广泛,研究历史悠久。从历史角度看,主要有两种方法,且逐渐相互结合。
- 手工特征方法 :设计“手工特征”,以局部或整体方式表达视频帧特征,形成新的描述空间,再用机器学习方法对特征进行分类,解决动作识别问题。
- 深度神经网络方法 :采用“端到端”解决
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



