过拟合和欠拟合

最新推荐文章于 2025-01-16 21:25:42 发布

原创最新推荐文章于 2025-01-16 21:25:42 发布 · 382 阅读

0 ·

CC 4.0 BY-SA版权

Keras笔记专栏收录该内容

6 篇文章

订阅专栏

概念

优化：代表通过调整模型来训练数据上表现最好。
泛化：代表模型在未见过的数据上的表现。

防止过拟合

1.弄更多的训练数据
2.调节模型储存的信息的质量，用来解决过拟合的方法叫做正则化。

减少网络大小

最简单的预防过拟合方法就是减少模型的大小。
模型中可学习参数的数量被称为模型的“容量”。
没有什么有魔力的公式能够决定层所需的正确数量，以及每一层的正确大小。你必须评估一系列不同的结构（在你的验证集上而不是测试集上）来找出你的数据的正确模型大小。一般的找到合适大小的流程是从一些相关的比较少的层数和参数开始，然后开始提高层的大小并增加新的层知道你看到验证集的损失开始下降为止。

增加正则化权重

L1正则化，花费取决于权重系数的绝对值
L2正则化，花费取决于权重系数的平方，也称权重衰减。
在keras里面，权重正则化通过权重正则化实例加进来作为关键词参数。让我们在电影评论分类网络中加入L2去那种正则化。

from keras import regularizers
model = models.Sequential()
model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
 activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
 activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

其中l2(0.001)意味着图层的权重矩阵将会乘以0.001加入到最终网络的损失中。注意乘法只在训练的时候加进去，也就是说网络的损失在训练的时候要比测试的时候高很多。
作为l2的替代，你可以看到如下的keras权重正则化：

from keras import regularizers
# L1 regularization
regularizers.l1(0.001)
# L1 and L2 regularization at the same time
regularizers.l1_l2(l1=0.001, l2=0.001)

添加drop out

dropout应用到“层”里面，由随机"dropping out"层在训练中学习到的要输出的特征。在测试的时候，没有单元被dropped out，层的输出值会按照dropout rate来缩放，以平衡在测试时和训练的时比有更多的单元。
在keras里面，能使用dropout层来直接引入dropout。

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))