机器学习过拟合的原因和解决办法

本文探讨了过拟合的概念及其原因,包括模型复杂度过高、噪声和数据集尺寸不足等,并介绍了几种解决过拟合的方法,如从简单模型开始、数据清理、正则化等。
一、什么是过拟合
1、泛化能力差
     低 Ein,高Eout。
2、泛化能力差和过拟合

     

泛化能力差:(E_out−E_in) 很大
过拟合:E_in↓,E_out↑
欠拟合:E_in↑,E_out↓
3、过拟合的原因
     ①使用过多的d_vc  (即使用的模型的复杂度过高)
     ②噪声
     ③数据有限


二、噪声和数据集尺寸的角色


复杂度越高的模型,当数据量越小,N→∞。灰色部分表示过拟合。


三、确定性噪声
1、过拟合的衡量
      (1)高斯噪声的影响,δ^2 表示方差【随机噪声】

      

   (2)确定性噪声



严重过拟合的原因:
数据集尺寸N ↓         过拟合↑
随机噪声↑           过拟合↑
确定性噪声↑         过拟合↑
使用的模型复杂度↑ 过拟合↑

四、过拟合的解决方法
1、可能的解决途径
    ①从简单的模型开始
    ②数据清理/修剪
    ③提供额外的提示
    ④正则化
    ⑤验证
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值