Auto-encoder
自编码器是一种无监督学习方法,可用于数据降维及特征抽取。自编码器由编码器(Encoder)和解码器(Decoder)两部分组成。编码器通常对输入对象进行压缩表示,解码器对经压缩表示后的code进行解码重构。
它的思想是,找一个encoder,比如input一张image,经过encoder,output一个code,它的维度要远比input小,那这个code就代表了这个input某种精简的有效的representation。
但是现在问题是非监督的,我们可以找到一堆input但是不知道output是什么,那我们可以先learn一个decoder,它可以input一个vector然后output一个image。你也没办法train decoder,因为你也只有output。
二者单独都不能train,但是可以把二者联系起来一起train。
从PCA中,input一个image x,乘上weight得到component,component再乘以weight的transports,得到x^,minimize x和x^
这里面只有一层的hidden layer,hidden layer的output就是code
我们可以用gradient decent来解PCA,但是它只有一个hidden layer,也可以将它改成很多的hidden layer。
中间会有一个特别窄的layer,它有特别少的neuron,这个layer的output就代表了一组code。input到bottle是encode,bottle到output是decode。左右两边的weight没必要互为transport(互为transport可以减少参数数目,防止overfitting),但是并不必要,直接用BP训练即可。
下图是Hinton原始论文中的结果:PCA把784维降到30维再恢复到784维,deep auto-encoder结构见下。如果用PCA降到2维,则digits都混在一起,而deep auto-encoder降到2维可以把digits分开。
应用一 Auto-encoder ——Text Retrieval
假设我们想做文字搜寻, 可以将一篇文章压成一个code,得到vector space model,把查询词汇也变成一个vector,从而进行查询。查询词汇与文章的点坐cos similarity,距离最近的话就会检索这个document。那现在的问题就是这个文章的vector你表示的好不好。
一般的文本检索方法有向量空间模型(Vector Space Model),上图中蓝色的点代表的是文档(经过降维后),接着计算要查询的文档与其他的距离,选择较为接近,相似程度高的,但这个模型的好坏关键取决于向量化的好坏;单词包(Bag-of-word),通过建立一个词向量,若文档中存在某些词记1否则记0,然后再计算相似性,但此模型不能很好的表达语义层面。
可以用auto-encoder:将一篇文章经过encoder把它压成二维的,每个document会被标成某一类,结果图如下,同一类document在一起。
应用二 Auto-encoder——Similar Image Search
以图找图,计算image的query和其他image的pixel的相似程度,这样的结果不太好,
那可以用auto-encoder将image变成code,然后在code的基础上进行搜寻。又因为是非监督的,可以collect很多data。
应用三 Auto-encoder——Pre-training DNN
在train一个NN时,很难找初始化参数,假设想要得到下面这个DNN的初始化参数,用auto-encoder的方法就叫做Pre-training。
需要注意的是,在这auto-encoder中,code比input大,这有可能会让code硬背起来input然后再输出,那就什么都没有learn到。所以在这种情况下要加一个很强的regulation在这个1000维上,就是希望这1000维里某几维是有值的,其他的没有值。
在训练第二个auto-encoder时,要把database中所有digit都变成1000维vector。
以此类推,最后随机初始化输出层之前的权重。然后用BP做fine-tune(W1,W2,W3已经很好,微调即可)。
之前在训练较深的NN时要用到预训练,但是现在没必要了,因为训练技术进步了。
然后反向微调,称作:Find-tune by backpropagation。现在train的技术进步之后几乎不用pre-training了。但是如果你只有少量的label data,你可以用大量的unlabel data初始化w1,w2,w3,最后的label data稍微调整一下就好。
应用四 De-nosing auto-encoder
应用五 Auto-encoder for CNN
根据CNN的过程我们可以知道encoder和decoder的过程如下:
首先就是在polling的时候,除了选出最大的那个点,还要记录一下,最大的那个点是在什么部位选出来的:
接下来做unpooling时,要将比较小的matrix变成大的,将值放到对应的位置上,其他位置补0就好:
在keras中,你不用记录之前的位置,就是repeat那个记录下来的最大值
接下来是比较难理解的Deconvolution(反卷积),事实上deconvolution也就是convolution:
其实它是可以用convolution来表示的,将三个值当做输入,再分别补上几个0:
其实第一个过程和第三个过程是完全一样的,而且第三个过程的结果跟第二个过程的结果是完全一样的。需要注意的是,weight是完全相反的(由红蓝绿变成绿蓝红),这个操作也是一个从convolution的过程的。