【deep learning学习笔记】Greedy Layer-Wise Training of Deep Networks

最新推荐文章于 2025-05-30 00:41:42 发布

xceman1997

最新推荐文章于 2025-05-30 00:41:42 发布

阅读量9.7k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xceman1997/article/details/9905259

DL 专栏收录该内容

49 篇文章

订阅专栏

本文探讨了深度网络训练中的维数灾难问题及解决方案。通过引入分层贪婪训练策略，利用DBN模型验证其有效性，并扩展到连续输入及隐含层。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题：Greedy Layer-Wise Training of Deep Networks

作者：Yoshua Bengio

发表于：NIPS’2006

主要内容：

很经典的文章了。在Hinton提出 stack RBM 组成的DBN之后，Bengio这篇文章一方面验证DBN模型，另一方面讨论可能的扩展。

对于shallow architecture模型，如SVM，对于d个输入，要有2^d个样本，才足够训练模型。当d增大的时候，这就产生了维数灾难问题。而多层神经网络能够避免这个问题：

boolean functions (such as the function that computes the multiplication of two numbers from their d-bit representation) expressible by O(logd) layers of combinatorial logic with O(d) elements in eachlayer may require O(2^d)elements when expressed with only 2 layers。

但是对于深层神经网络，用梯度下降方法来训练，通常会陷入局部最优解。

文章接下来介绍deep belief network。

1. 扩展到连续输入

一种直观的方法，是将输入的实属向量进行归一化，转成(0, 1)区间的数。然后用正常的RBM的CD-k来训练就行。

作者从RBM的能量函数入手，将输入转成高斯unit，然后用CD-k算法就可以训练。具体怎么操作的，作者没细说，我也没看懂。

2. 将隐含层扩展成连续值的形式

上述方法也可以用到隐含层。

3. Understanding why the layer-wise strategy works

作者用autoencoder来替换DBN中的RBM，得到了comparable的实验结果。作者用surperwised训练算法来代替RBM的unsurpervised训练算法，发现结果略差，作者的解释是：surperwised的方法过于“贪心”，在训练过程中丢掉了部分信息。

作者在文章之后附上了实验的所有算法的伪代码，值得借鉴。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。