Hi,你好。我是茶桁。
之前的课程中,咱们学习了CNN的原理,学习了pooling, fully connected是做什么的。还了解了理论上简单的模型也是可以做事情的,只不过在特定的一些情况下要解决问题的时候简单方法效果不太好,所以用了像LSTM,或者RNN、CNN之类的结构。
这些本质上都是在做特征的提取。一个经典的观念是,神经网络其实一共都可以分成两个部分,第一个部分是特征提取,第二个部分是分类器。像fully connected layer,其实就是之后再加上一个Softmax或者log Softmax,在做分类器的实现。
前面在进入全连接层之前,也在进入Softmax或者log Softmax之前,全部做的都是特征提取的事。
不管你是线性函数,就线性变化全连接的这种网络,还是RNN,LSTM或者CNN等等,在进入Softmax之前,这些都是在做特征提取。
Hinton当时的说法我觉得说的很有道理,就说「特征提取的作用是让相似的东西不相似,让不相似的相似」。
意思就是,我们对于任何一个神经网络来说,到最终的这个全连接,加上Softmax,之前的这些东西不管你是输入的是一个图片还是几个文字,还是说一串数据。所谓的让看起来相似的东西不相似是如果有两个图片,或者两组数据,他们在我们人看起来是比较类似的。但是假设他们的label不一样的话,我们整个特征提取的过程是把输入的这两个x,人看起来是一样的,在最后输出的这个地方要