Deep Learning学习

最新推荐文章于 2025-05-11 09:25:26 发布

转载最新推荐文章于 2025-05-11 09:25:26 发布 · 947 阅读

Deep Learning 专栏收录该内容

0 篇文章

订阅专栏

本文介绍了深度学习的基本概念和发展历程，详细解析了深度学习在信号处理中的应用，包括图像和语音处理的基本流程，并探讨了特征提取的重要性及其对问题解决能力的影响。此外，还介绍了几种常用的深度学习方法和技术。

我们知道在信号处理中，无论是图像还是语音，基本的处理流程是（以图像为例）：

（1）对原始输入进行预处理，如resize图像大小，去除噪音，背景差分等；

（2）在预处理过程输出的数据上提取特征，进行features extraction及feature selection的操作，比如进行HOG计算，之后进行特征降维等；

（3）在获得的features vectors（instances）之上，使用各种model进行学习，训练，最终完成具体任务，如Classification，Recognition等

这里面通常把通常把（1）和（2）统称起来叫做Feature Learning。需要说明一下，在上图中，把（2）过程分成两个Feature Extraction和Feature Learning两个部分。很多文献中，把关于feature的linear transformation称为Feature Extraction，关于non-linear transformation称为Feature Selection。为了便于区分，这里将计算、提取特征称为Feature Extraction，将对特征（feature）的linear 和non-linear transformation 统称为Feature Selection。

从上面的这个流程图中，我们可以看出，后面的操作是建立在前面输出结果的基础之上的。这样越靠近前部的处理就愈加重要，不考虑“预处理”部分，Feature Extraction是其中最为重要的部分。有很多文献中都提及到，Feature Extraction决定了要解决问题的能力上限，而在其后流程中的模型\方法等只是为了更好的或更有效的接近这个上限。

我们知道，虽然研究设计features的工作很多，但是特别有效的feature还是很少，在眼前张口就来的可能就SIFT，HOG这么几种。这里要说明的是，我们不是否定关于设计feature的工作，而是说这部分工作是很难的，特别是具体到一个特殊领域工作中，这些Features是否依然适合解决我们的问题都是未知。并且在实际工作，这部分工作需要更多的人工操作参入其中，由于人的因素这一方面增加了feature的不确定性，另一方面使得工程投入十分昂贵。

众多牛人其实很早以前就意识到这个问题了，也进行了很多尝试，比如类似Metric Learning，Kernel Learning等，这些linear或是non－linear的transformation都希望可以获取更有效的feature representation。然而，就像我们前面谈论到的，这些方法还是已有的features基础之上的。根据features决定上限的理论，这个东西还不是我们最想要的东西。于是牛人也继续发展这个问题，既然这个问题还是不行，大家干脆直接从原始底层数据上学习feature吧（features learning/representation learning），于是乎传说中的Deep Learning在这种需求背景下横空出世了。

深度学习（Deep Learning）的概念大概是2006年左右由Geoffrey Hinton等人提出来的，主要通过神经网络（Neural Network， NN）来模拟人的大脑的学习过程，希望通过模仿人的大脑的多层抽象机制来实现对数据（画像、语音及文本等）的抽象表达，将features learning和classifier整合到了一个学习框架中，减少了人工/人为在设计features中的工作。“深度学习”里面的深度（Deep）指的就是神经网络多层结构。深度学习的基本思想就是，在一个n层的NN中，对每一层的输出（Output）与这一层的输入（Input）“相等”。这个地方“相等”有两个含义在里面：第一个是说Output和Input不是在绝对形式上的相等，而是在抽象意义上的相等，关于“相等”的另外一点指的是限制的约束的程度，比如说是不会造成歧义的完全“相等”还是有适当宽松条件的“相等”。其实上面的最后一点中的这两个思想，也是对应了Deep Learning中两种方法：AutoEncoder和Sparse Coding，除去这两者外，还有一个很常用的方法就是Restrict Boltzmann Machine （RBM）。

下面的学习计算从两方面走，一个是从理论上仔细学习一下相关方法，多读一些文献，看看其他人是都是从哪些方面入手的，这个还要看一些文章再做决定，这个主要是从[1]中给出的reading list入手了，主要集中在关于Computer Vision的部分。

另一个是从应用上走，主要是研究一些Deep Learning工具的使用（主要是Theano），实现一些示例。在这个过程中有不理解的地方在做适当的调整、学习。主要是按照[9]中给出的路线走：先了解一下Theano basic tutorial，然后按照[1]中的Getting StartedGuide学习。

之后呢尝试几个算法，关于Supervise Learning的

（1） Logistic Regression - using Theano for something simple

（2）Multilayer perceptron - introduction to layers

（3） Deep Convolutional Network - a simplified version of LeNet5

Unsupervise Learning的

（1） Auto Encoders, Denoising Autoencoders - description of autoencoders

（2）Stacked Denoising Auto-Encoders - easy steps into unsupervised pre-training for deep nets

（3） Restricted Boltzmann Machines - single layer generative RBM model

（4） Deep Belief Networks - unsupervised generative pre-training of stacked RBMs followed by supervised fine-tuning

下面给出一些参考文献：

[1] Website: http://deeplearning.net/

[2] Introduction to Deep Learning: http://en.wikipedia.org/wiki/Deep_learning