题目:Convolutional Networks for Images, Speech, and Time Series
作者:Yann LeCun,Yoshua Bengio
链接:http://yann.lecun.com/exdb/publis/pdf/lecun-bengio-95a.pdf
相当老的一篇文章,基本上属于CNN开山之作级别。
作者首先比较了多层(全连接的)BP网络(全连接的)和CNN,前者作为古老的经典模型,固然有着许多诸如自提取特征、大数据可学等这样的优点,然而对于图片、语音、文本等数据,其表征通常都是很高维的,从而造成大量权重及overfitting;上述数据都是有着极强的局部相关关系,通过全连接网络不能体现出这种关系。
CNN的优点包括三个部分:局部感受野、权值共享、降采样。
局部感受野,一方面可以提取局部相关特征从而进行后续地高级组合,另一方面也具有生物学方面的证据。
权值共享,意味着在feature map上进行抓取不同的特征。
降采样是因为,对于我们感兴趣的特征,其绝对位置远远不如特征之间的相对位置来的重要。
关于TDNN(延时神经网络)和VSCNN和SDNN的内容这里不再赘述。