关于神经网络的capacity、regularization、generalization

本文链接：https://blog.youkuaiyun.com/Trasper1/article/details/82771930

本文深入探讨神经网络的容量、正则化和泛化能力。网络容量与参数量有关，但过度依赖某些参数可能导致过拟合。正则化，如L1和L2损失以及dropout，通过减少参数间的耦合来提高泛化性能。L1正则化鼓励特征选择，L2正则化促使权重分散。dropout通过随机失活机制迫使所有单元积极参与学习，降低对特定单元的依赖，增强网络的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以一个ANN（MLP，级联的FC网络）为例，每一层的每一个units（neurons）代表着这一层所构建的特征空间中的一维，或者是这一层所能代表类别的某一类别的confidence：

（即若ANN中的某一层有3个neuron，后一层有5个neuron，y = W * x + b, 这两层之间的W是一个5*3的矩阵。那么这两层相当于把输入为3 * dim的一个feature map转换成5 * dim的feature map，即将dim维的feature dimension从3升到了5。W中的每行的3个weight wi（即这一层中的5个neuron每一个都管理着自己的3个weights），就可以看做是一个classifer，或一个feature descriptor。因为这三个weights把一个输入转化成了一个类别的得分，或者是一个5维特征在一维上的特征值。）

那么，一个网络的generalization能力是由网络的capacity和训练数据量共同决定的。网络capacity越大越能捕捉训练数据的细枝末节（高频），所以越容易overfit（在训练数据的高频noise上），从而generalization不佳。

所以在训练数据无穷的极限条件下，网络的generalization能力与其capacity成正比。

那么提高网络的泛化性能就可以理解为1. 增加训练数据；2. 增大网络的capacity。

直观来看网络的capacity与网络参数量成正比。但是，这里面要考虑到所谓参数间互相coupling、correlating的现象。即，某些参数能力很强，总能做出正确的事，从而网络学会了偷懒，其他某些参数（units）只是在机械地模仿这些“superstar“unit的输出结果。这就导致虽然参数量很大，但是一部分参数在单纯模仿，并没有独立运作的效力。造成其名存实亡，也即网络capacity的折损。因而，需要一些手段来de-