关于神经网络的capacity、regularization、generalization

本文深入探讨神经网络的容量、正则化和泛化能力。网络容量与参数量有关,但过度依赖某些参数可能导致过拟合。正则化,如L1和L2损失以及dropout,通过减少参数间的耦合来提高泛化性能。L1正则化鼓励特征选择,L2正则化促使权重分散。dropout通过随机失活机制迫使所有单元积极参与学习,降低对特定单元的依赖,增强网络的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以一个ANN(MLP,级联的FC网络)为例,每一层的每一个units(neurons)代表着这一层所构建的特征空间中的一维,或者是这一层所能代表类别的某一类别的confidence:

(即若ANN中的某一层有3个neuron,后一层有5个neuron,y = W * x + b, 这两层之间的W是一个5*3的矩阵。那么这两层相当于把输入为3 * dim的一个feature map转换成5 * dim的feature map,即将dim维的feature dimension从3升到了5。W中的每行的3个weight wi(即这一层中的5个neuron每一个都管理着自己的3个weights),就可以看做是一个classifer,或一个feature descriptor。因为这三个weights把一个输入转化成了一个类别的得分,或者是一个5维特征在一维上的特征值。)

那么,一个网络的generalization能力是由网络的capacity和训练数据量共同决定的。网络capacity越大越能捕捉训练数据的细枝末节(高频),所以越容易overfit(在训练数据的高频noise上),从而generalization不佳。

所以在训练数据无穷的极限条件下,网络的generalization能力与其capacity成正比。

那么提高网络的泛化性能就可以理解为1. 增加训练数据;2. 增大网络的capacity

直观来看网络的capacity与网络参数量成正比。但是,这里面要考虑到所谓参数间互相coupling、correlating的现象。即,某些参数能力很强,总能做出正确的事,从而网络学会了偷懒,其他某些参数(units)只是在机械地模仿这些“superstar“unit的输出结果。这就导致虽然参数量很大,但是一部分参数在单纯模仿,并没有独立运作的效力。造成其名存实亡,也即网络capacity的折损。因而,需要一些手段来de-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值