[机器学习] 一文了解欠拟合与过拟合

过拟合: 在模型训练中,如果一味追求对训练数据拟合的准确性,所得到的模型往往参数过于复杂,此时的模型学习能力太强,以至于将训练集单个样本自身的特点都能捕捉到,并将其认为是“一般规律”。对未知数据的预测能力却很差。

欠拟合: 常常在模型学习能力较弱,而数据复杂度较高的情况出现,此时模型由于学习能力不足,无法学习到数据集中的“一般规律”。

在数据集层面上理解:
过拟合:训练集上表现得很好,但测试集上表现得并不好。
欠拟合:训练集上和测试集上表现得都不好。

在实际情况中,欠拟合是容易克服的,如在决策树学习中拓展分支、神经网络学习中增加训练轮数。而解决过拟合是一个障碍,且过拟合是无法彻底避免的,但可以缓解和减小。

解决过拟合选项:
1、减少特征的数量,选择要保留的特征。
2、正则化(保留所有特征,但减少参数的大小/值。)

E.g.
1、高维数据会带来计算效率低和过拟合问题,可以减少维度。
2、logistics回归可以通过添加正则化项解决过拟合
3、如果决策树很复杂,需要用剪枝来减少复杂度避免过拟合。
4、BP神经网络中,采用提前停止策略防止过拟合(在训练过程中如果训练集误差率降低的同时,测试集的误差在升高时,就可以停止训练)。

值得一提的是在logistics回归中可以添加正则化项(各个参数的平方和的平均值)的方式解决过拟合:正则化项为: (λ/2m)∑θi^2(1<=i<=m) 其中λ为正则化参数,用于平衡对拟合训练集程度的目标和将参数控制得更小的目标。

欢迎留言讨论或补充~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值