- 当下AI的瓶颈:
静观现有AI,尤其是Deep Learning的发展如火如荼,几大热炒的明星模型无非MLP,CNN,和RNN。这些模型更倾向于是对现实世界的representation learning,其最大的问题有二:
- Combinatorial Generalization (CG):即泛化能力,如何解决利用有限样本学习无限可能的这个本质难点,即如何实现‘infinite use of finite means’,如何将over-fitting问题在根源上解决;
- Relational Reasoning: 即学习事物之间的关系和联系,而不仅仅是讲一个input提特征描述为其另一种表征。
- 为何遇到如此瓶颈:
首先要从当前DL模型所能处理的数据说起。以CNN举例,它的input往往是image,而image(或者想RNN处理NLP中的sentence等)是一种Euclidean domain的,展现出grid性质,工整对称的数据。因此,CNN所采用的工整对称的filter可以很好地发挥作用。然而,这一类数据是‘单调无趣’的,即它并不能描述出entities于entities之间多变的relations。这就从根源上限制了对复杂问题的描述力。
而世界上另一种数据表现形式是Non-Euclidean Domain,这类数据包括比如社交网络,蛋白质结构,交通网络等等展现出网络结构或者个体间相互连接的结构。这一类数据内部没有规则的grid结构,而是展现出一种多变的动态的拓扑。这种结构能够很好地表征个体之间的关系,适合于relation reasoning。
其次,从学习模型(网络)的结构解释。一个深度学习模型(网络)往往是由多个深度学习building blocks通过某种方式连接而成的。对于CNN而言,其基础的building block就是Conv layers(和pooling layers等)。一个模型的CG能力,取决于两点:
- Structured representation & computation of the building blocks:所谓structured,我理解就是让该block自己内部也具有某种拓扑结构,进而使得其具有更高的可操作性,可学习性。对于一个Conv filter而言,就是一个正方形的grid,在空间结构上来说是fixed的,可学习的量只有各个权重值;直观上看,讲一个原本固定的行人BBox模型进化成part-based pictorial structure模型就是一个将模型structured化,得到更强RIB的例子。一个pictorial模型仿照spring模型,由node和相连的edge构成。而这些edges,就是描述relations的最好载体,也是configurablility的来源。
- Relational Inductive Bias (RIB) available in the model: RIB,可以理解为assumptions or known properties about the learning process, w