模型的选择、评估和优化-上

引入

对于一个机器学习工程而言,我们可以选择的模型众多,就之前的章节,我们已经可以选择:

对于一个模型而言,我们也有很多模型参数需要人工选择,本章将对模型的评估选择和优化进行详细介绍。

概念介绍

过拟合和欠拟合

在机器学习中,我们期望通过训练集来得到在新样本上表现的很好的学习器,找出潜在样本的普遍规律,在训练过程中,可能会出现两种情形:

  • 欠拟合:指对训练样本的一般性质尚未学好 。
  • 过拟合:学习器把训练样本学得“太好”了的时候,可能把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。

可以通过下图来辅助理解:

这里写图片描述

在机器学习中,我们尤其要预防过拟合的发生,但由于机器学习的问题常常是NP难甚至是NP完全的,而有效的算法必定是多项式时间内完成的,所以只要承认P=NP,就需要承认过拟合无法完全避免

当然,P=NP是目前尚未证明或证伪的结论,我倾向于认为P!=NP。

偏差和方差

对于测试样本x,其真实标记为y,数据集中的标记为 y1 y 1 ,机器学习算法输出的标记为 y2 y 2 ,算法输出的期望值为 y¯¯¯2 y ¯ 2 ,则有以下定义:

var(x)=E((y2y¯¯¯2)2) 方 差 : v a r ( x ) = E ( ( y 2 − y ¯ 2 ) 2 )

bias2(x)=E((yy¯¯
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值