关于如何模拟人脑理解视觉信息,我的观点是:从三维时空上进行语义推理,才是最终的图像理解解决方案。具体解释如下:
1、为什么是三维?是为了兼顾行为分析。人脑是能够理解行为的,要分析行为,必须观察一定的时间才行。比如人在观察某个场景时,这个场景中肯定不会完全是静止的物体,还有运动的目标,这些运动目标的理解,对于场景理解,也是非常重要的。因此,最终的方案,必须要兼顾三维时空信息。
2、为什么是语义推理?人脑能够进行高度抽象的理解,这是当前计算机所做不到的。人脑对语言的理解,就需要在不同词汇的基础上,进行组合推理。同样,对于图像,对于视频的理解,更加需要进行高层次的组合推理。只有足够的抽象,才能解决各种不变性问题。也只有抽象,组合推理,才能适应千奇百怪的实际现象。
3、目标识别所处的地位。目标识别,只是这个方案的一个子模块,是为最高层方案提供信息的。因此诸如深度学习,视觉注意机制,都只是这个模块的一个部分。
(待补充)