视觉皮层计算理论探索
1 深度网络与样本复杂性
深度网络能够实现更复杂的分类功能,但这是以样本复杂性为代价的。随着需要拟合的参数数量增加,正确训练所需的样本数量也会增多。近年来,人们致力于构建大规模的带注释图像和视频数据集,例如 ImageNet 大规模视觉识别挑战赛的数据集包含超过 100 万张图像和 1000 个类别,而 2010 年的 PASCAL VOC 挑战赛数据集仅有不到 20000 张图像和 20 个类别。通过这些大规模数据集,能够训练出越来越大的网络。
令人惊讶的是,尽管现代深度学习架构没有受到神经科学的约束,但它们却能更好地解释腹侧流的神经数据,并且在性能上大幅超越其他模型,在困难的物体分类任务中开始接近人类的准确率。
2 跨视觉线索的模型
2.1 二维形状处理与物体识别的分层模型
二维形状处理和物体识别的分层模型的有效性引发了人们对将其扩展到多个视觉线索的兴趣。这些模型的主要思想是在多个处理阶段重用基本的计算构建块,并且越来越多的中级视觉区域的电生理数据使得有效约束所有可能模型的空间成为可能。
2.2 运动处理的分层模型
除了二维形状处理,人们还提出了几种运动处理的分层模型。例如,由特定核心操作组成的计算模型能够重现视觉皮层背侧流中运动选择性神经元对复杂运动刺激(如漂移格子和连续变形)的选择性。相关的腹侧流和背侧流模型被用于模拟动作识别的大脑机制。
基于视觉皮层背侧流的模型构建的计算机视觉系统在动作识别方面表现出色,能够与当时最先进的计算机视觉系统竞争。后来,该方法被扩展到自动监测和分析啮齿动物在其笼中的行为,准确率与训练有素的人类注释者相当。 </
超级会员免费看
订阅专栏 解锁全文
8067

被折叠的 条评论
为什么被折叠?



