Machine Learning --- Structure risk & VC dimension

本文阐述了结构风险的概念,即经验风险与置信风险之和,并解释了两者之间的关系。经验风险指的是分类器在训练集上的误差,而置信风险则取决于样本数量和分类函数的VC维。VC维是指分类函数能够正确分类的最大样本数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、结构风险

结构风险=经验风险+置信风险

经验风险=分类器的训练误差

置信风险=分类器的测试误差

其中置信风险由样本数量N与分类函数的VC维h决定。样本数量越多模型越接近真实分布,置信风险越小;VC维越大,模型越复杂推广性差,置信风险越大。结构风险公式如下:

image

 

二、VC维

定义:若h个样本能被分类函数按所有可能的2h种形式分开,则称分类函数能把h个样本打散。分类函数的VC为就是它能打散的最大样本数h。若分类边界为线性,则h=D+1,D为特征维数。

[例]2维平面内只能找到3个点被直线打散分成两堆。设A、B、C表示三个点,+1,-1表示堆的类别。

当h=3时,有8种打散方式:

image

当h=4时,只有14种打散方式(应该有24=16种)

image image image

因此VC维等于3。

转载于:https://www.cnblogs.com/jizhiyuan/p/3426947.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值