前馈网络训练的困难

最新推荐文章于 2024-06-28 18:46:02 发布

原创最新推荐文章于 2024-06-28 18:46:02 发布 · 737 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

deep learning论文笔记同时被 2 个专栏收录

16 篇文章

订阅专栏

15 篇文章

订阅专栏

本文探讨了在神经网络训练过程中遇到的非线性激活层饱和问题，以及如何通过良好的初始化和无监督预训练改善训练效果。无监督预训练可能起到正则化作用，帮助参数达到更容易收敛的状态。研究还发现，不同激活函数如sigmoid、tanh和softsign对饱和现象有不同的影响，而对数代价函数结合softmax在训练中表现优于最小二乘法。此外，文章提到了新的权重初始化方法以优化训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（早期）神经网络通常使用随机初始化和标准的梯度下降法来训练，但是效果不好，这是由于非线性激活层饱和（虽然有时能够自己走出饱和区域）。

目前已经通过良好的初始化和一些训练策略取得了较好的训练效果。

尤其是无监督的预训练（目前来看已经是标准的初始化操作），可能的原因是由于无监督的预训练相当于正则化矩阵，将参数设为更加容易收敛的状态。

但是目前我们致力于分析是什么样的原因使得训练多层深度网络变差。

无限数据集训练，（怎样制作数据集暂时省略）。

训练细节，设置网络层数为1-5层，代价函数为似然对数函数，-log(y,x),x是输入图片，y是目标类别。通过随机梯度下降法训练，mini-batch = 10，设置初始偏执为0，每一层的权重为服从如下的分布：n为前一层w的列数。

设置不同的激活函数：

1、sigmod：最佳深度为四层，下图为激活层输出。

从图中可以看出最后一层从开始训练立即进入饱和状态，虽然在a点会逐渐跳出饱和，但是其他的层开始进入饱和.

但是如果通过无监督的预训练，不会出现饱和的情况，这是由于随机初始化对于图像的分类并没有任何作用。

而为何会进入饱和区域呢？对于输出softmax（b+wh)可能更多依赖于b，因为b的学习地更快，因此误差梯度可能会将wh更多地置为0。

2、tanh

从图中可以看出第一层隐藏层首先进入饱和，然后是第二层。。。

3、softsign

多层同时进入饱和，第一层进入饱和比较快。

代价函数的影响：

对数代价函数+softmax 优于最小二乘+softmax

提出新的初始化方法，详情可见《权重初始化》

博客等级

码龄13年

90
原创

38
点赞

109
收藏

21
粉丝

关注

私信

热门文章

分类专栏

c++ 16篇
数据结构 4篇
deep learning论文笔记 16篇
linux 4篇
Leetcode 19篇
boost 3篇
plate recongnize
caffe 14篇
python 10篇
yolo 4篇
CUDA 1篇
cs231课程学习 6篇
deep learning 15篇
图像处理 4篇
电影
tensorflow 4篇
NS_ML 1篇

展开全部收起

上一篇：: 深度神经网络的权重初始化

下一篇：: KNN和线性分类器

最新评论

yolo测试代码梳理
Tisfy: 看完之后，我激动的心情久久不能平复
caffe 添加Python层
马到成功.: 博主你好，我最近也在用caffe跑东西，但是遇到了点问题，想要请教下您，就是在执行训练文件的时候，代码运行到迭代部分就停在那不动了这是怎么回事呢？期待您的回复，谢谢。 [code=python] I0922 10:40:59.692507 9525 upgrade_proto.cpp:72] Successfully upgraded file specified using deprecated input fields. W0922 10:40:59.692509 9525 upgrade_proto.cpp:74] Note that future Caffe releases will only support input layers and not input fields. I0922 10:40:59.775990 9525 net.cpp:746] Ignoring source layer fc8 I0922 10:40:59.776000 9525 net.cpp:746] Ignoring source layer prob I0922 10:40:59.779959 9525 solver.cpp:57] Solver scaffolding done. I0922 10:40:59.780611 9525 caffe.cpp:239] Starting Optimization I0922 10:40:59.780618 9525 solver.cpp:289] Solving RankIQA_siamese_train_test I0922 10:40:59.780622 9525 solver.cpp:290] Learning Rate Policy: step I0922 10:40:59.782059 9525 solver.cpp:347] Iteration 0, Testing net (#0) [/code]
caffe 添加Python层
雨后天空sunny: 请问Python下添加layer的GPU 实现有模板吗？
导数，偏导，方向倒数，梯度
xuxiaoyi67: 666666666666666666666
yolo 源码分析
小小小吃货: 博主您好。请问在yolo.c的文件里面怎么修改？可以说一下您修改的过程吗？谢谢了

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。