2
(x-\hat{x})^{2}
(x−x^)2。
将PCA类比为network的话,就可以分为input layer,hidden layer和output layer,hidden layer又称Bottleneck(瓶颈) layer。因为hidden layer的通常维数比output和input要小很多,所以整体看来hidden layer形如瓶颈一般。 Hidden layer 的输出就可以等同于Auto-encoder的code vector。
1.2 Deep Auto-encoder
但是PCA只有一个hidden layer,如果我们将hidden layer增加,就变成了Deep Auto-encoder。目标函数也是:Minimize
(
x
−
x
^
)
2
(x-\hat{x})^{2}
(x−x^)2,训练方法和训练一般的神经网络一样。
将中间最窄的hidden layer作为bottleneck layer,其输出就是code。bottleneck layer之前的部分认为是encoder,之后的部分认为是decoder。
可认为
W
1
W_1
W1和
W
1
T
W_1^T
W1T互为转置的关系,参数的值是相同的,但是实际上这种对称是没有必要的。直接训练就可以了。
对比使用PCA和Deep Auto-encoder的结果,可以发现后者的结果要好很多:
为了可视化,将bottleneck layer的输出降到2维后拿出来显示,不同颜色代表不同的数字。PCA就比较混杂,而Deep Auto-encoder分得比较开。
2 Some Applications
2.1 Text Retrieval(文字检索)
一般的文字搜索的方法是Vector Space Model,把每一篇文章表示为空间中的一个点,将输入的查询词汇也变成空间中的一个点,计算输出的查询词汇和文章在空间的距离,比如内积和cosine similarity,用距离来retrieve。
这个模型的核心是将一个document表示成一个vector,假设我们有一个 bag of word,假设所有的词汇有十万个,那么这个document的维度就是十万维。涉及到某个词汇,对应的维度就置为1。但是这样的模型无法知道具体的语义,对它来说每一个词汇都是独立的,忽略了相关性。
可以使用Auto-encoder来表示这种相关性。
降到2维后做可视化,右上的每