下一代人工视觉系统:逆向工程人类视觉系统
1. 引言
人类自拥有自我意识以来,某些物理器官的功能就一直令人着迷并激发着人们的灵感。以鸟类的翅膀为例,从伊卡洛斯的神话到中世纪那些满怀憧憬的人,无数人试图通过佩戴类似鸟类翅膀的装置,从悬崖跳下并扇动翅膀来飞行,但都以失败告终。直到人们理解了物理定律并设计出自己的解决方案,飞行才得以实现。
人工视觉研究也常常遵循类似的路径。早期计算机视觉研究人员在20世纪60年代开发用于理解块状世界的视觉系统时,很多解决方案无法应用于自然世界的视觉场景。这并非是研究人员没有意识到与飞行类比的重要性,而是因为我们对生物视觉背后的物理、数学和工程原理的理解还不够成熟。就像飞机飞行依赖的机制与鸟类不同一样,或许在我们深入理解生物视觉后,能够发明出基于完全不同原理的解决方案。
我们将从工程角度审视生物视觉的一些方面,这些方面与当前技术密切相关,并且我们对其有了更深入的理解。同时,我们还会以人类视觉系统为跳板,对一些习以为常的技术进行反思,例如使用离散规则网格对连续世界进行采样的传统做法。此外,我们还会介绍一些模仿人类视觉系统的方法,这些方法在印刷、广播和娱乐行业有着广泛的应用。
2. 人类视觉系统概述
要了解人类视觉系统,最好的方法是追踪光线进入眼睛的路径。光线进入眼睛后,刺激眼球后部的传感器,产生的信号通过视神经传输,与来自另一只眼睛的神经交叉,然后到达位于大脑丘脑区域深处的外侧膝状体(LGN)。LGN的输出信号被发送到大脑后部的视觉皮层,这里是视觉处理的核心区域。
为了研究视觉皮层,神经科学家将其划分为多个区域,用字母“V”和数字表示。其中最大的区域是“V1”,也被称为纹状皮层,它是大部分初步