22、机器学习实用方面的深入探讨

机器学习实用方面的深入探讨

1. 训练数据误差来源

1.1 方差导致的误差

训练集的创建方式多种多样。有些应用中,训练集是随机创建的;在其他领域,它由特定时刻可用的示例组成,这也包含了大量随机性;还有些情况,训练集由专家挑选自认为最能代表给定类别的示例组成,但这种方式不可避免地带有主观性,和前两种方式一样不可靠。

由于训练集的创建存在随机性和主观性,对于同一领域可能会创建出不同的训练集。不同的训练集会诱导出不同的分类器,这些分类器在未来数据上会产生不同的误差,这就是训练数据方差成为重要误差来源的原因。通常使用非常大的训练集可以减少这种负面影响。

1.2 偏差导致的误差

如果正类和负类不是线性可分的,那么任何线性分类器必然会对未来示例进行一定比例的错误分类。与偏差相关的误差有其下限,因为它们是所选分类器类型本质所固有的,无法降低到这个下限以下。

1.3 方差与偏差的权衡

可以通过采用偏差较弱的机器学习范式来减少与偏差相关的误差,但这样做的一个意外后果是方差会增加。相反,原则上可以通过加强偏差来减少方差,但如果偏差不正确,会增加与偏差相关的误差频率。

2. 不平衡训练集问题

2.1 不平衡训练集的影响

在某些领域,如石油泄漏检测项目中,有记录的石油泄漏图像(正例)相对较少,而负例却很丰富。这种两类样本的不平衡表示对机器学习有严重影响。

通过一个简单实验可以观察到这种影响。假设有一个仅包含50个正例和50个负例的小训练集,对其进行5折交叉验证:将其分成五等份,在五次不同的实验运行中,每次移除一份,从其余四份的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值