动态人脸感知中的感知整合与推理
1. 动态人脸识别研究现状
在人脸识别领域,基于静态视图的理论和算法已经相当成熟。然而,利用时间信息进行动态人脸识别的研究仍处于起步阶段。不过,计算和心理物理学的证据表明,恢复运动信息不仅对一般物体识别有用,对人脸识别尤其重要。
观察一系列图像所提供的额外静态结构信息固然有用,但更重要的是,时间信息在多大程度上能通过增强和确定我们对目标物体的认知来辅助识别。尽管心理物理实验尚未就运动所提供信息的本质得出确切结论,但它们明确指出了时间信息在人类感知系统中的应用及其在物体识别中的重要性。
物体识别是一个感知过程,它涉及将物体的有效表示与已知类别或标签(如特定人的脸或所有人脸)相匹配。一般来说,这个过程可被视为有意义的感知。但识别动态物体(如人脸)的感知过程远不止简单的匹配和标签分配。还需要进行计算,以提供有关物体的运动、颜色、位置、视角、大小、表面纹理甚至 3D 配置等信息。其中一些计算可被视为感官感知,这可能与身份建模看似无关,除非我们思考以下问题:
- 感官感知和有意义的感知之间有什么关系?
- 不同感知过程进行的计算是简单地以自下而上、数据驱动的方式从感官感知到有意义的感知依次“流水线”处理,还是以更复杂的闭环方式处理?
- 高级知识和自上而下的基于模型的推理在感官感知中起作用吗?
2. 感知整合的相关理论与问题
最初提出用于解释人类视觉功能的格式塔理论,虽受到了严重批评,但它直接或间接地影响了许多计算机视觉中物体感知模型的运作。在分割方面,格式塔理论认为感知组织本质上是基于构建简单和规则的形式,这可以通过以下四个原则来表达:
- 相似性(如共同的颜色和纹理) <
超级会员免费看
订阅专栏 解锁全文
523

被折叠的 条评论
为什么被折叠?



