面部表情与动作识别的黎曼几何与仿射几何
1. 地标表示
在过去几十年里,人类行为的自动分析一直是一个活跃的研究领域,其应用场景广泛,涵盖视频监控、视频语义标注、娱乐、人机交互和家庭护理康复等。以往的分析方法主要分为两类:一类基于从RGB流中提取的像素值进行操作;另一类则建立在身体骨骼和面部地标的高级表示之上。后一类方法得益于低成本RGB - D相机(如微软Kinect)的普及,这类相机能实时可靠地提取身体关节的3D坐标。
选择使用地标表示的原因主要有两个。一方面,近期人类地标跟踪技术取得了显著进展,地标检测和跟踪方法变得可靠且准确,并且对RGB图像中的光照变化具有鲁棒性。通过考虑跟踪到的地标而非原始图像,我们能利用跟踪方法对这些计算机视觉经典问题的鲁棒性,期望基于地标的解决方案也具有相同的鲁棒性。另一方面,仅考虑跟踪到的地标能降低视觉数据的复杂性。与使用原始视频每帧中的大量像素相比,地标跟踪器仅提供一组相关的2D/3D点(通常点数在15到90之间),这使得基于地标的解决方案更高效、计算成本更低,更适合实时应用。
然而,人类地标跟踪技术虽然强大且对许多计算机视觉问题具有鲁棒性,但也带来了一些挑战:
- 视角变化 :跟踪到的地标坐标所提供的2D或3D位置是相对于相机位置的。但同一类别的人类行为信号(如喝水)可能在相机的不同位置发生。
- 速率变化 :我们要分析的人类行为信号存在较大的时间变化。例如,两个人执行相同动作(如喝水)的时间和持续时间可能不同。因此,不能简单地比较两个相应地标序列的静态地标配置来判断它们是否相似,有效的基于地标的解决方案应考虑这些时间(速率)变化。
- <
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



