VC维(Vapnik–Chervonenkis dimension)

VC维是Vapnik-Chervonenkis理论中的关键概念,用于衡量函数集的学习能力。它定义为函数集能打散的最大样本数目,反映了学习机器的复杂性和学习能力。例如,在平面上,直线最多只能将3个点打散,而对于4个点,不存在直线能实现16种不同的划分,因此平面内的直线的VC维为3。

1、简介

        vc理论(Vapnik–Chervonenkis theory )是由 Vladimir Vapnik 和 Alexey Chervonenkis发明的。该理论试图从统计学的角度解释学习的过程。而VC维是VC理论中一个很重要的部分。

 

2、定义

 

        定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h.若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大.

        VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大).学习能力越强。

 

        故有这样的结论,平面内只能找到3个点能被直线打散而不找到第4个。

 

        对于这个结论可以按如下方式理解:

    &nbs

Shatter\" 和 \"VC \"(Vapnik-Chervonenkis Dimension)是机器学习和统计学习理论中的两个重要概念。它们与模型的表达能力以及模型在不同数据集上的泛化能力密切相关。\n\n 1. Shatter打散\n\nShatter 是一个与数据集的可分性相关的术语。在统计学习理论中,给定一个分类模型(比如一个分类器或一个假设类)和一个数据集,我们可以定义“shatter”指的是模型能够完全分辨或划分这个数据集的不同标记方式。\n\n具体定义:\n\n如果有一个假设类(或分类器的集合),给定一个数据集 S = {x_1, x_2, ..., x_n} ,如果对于数据集 S 上的所有可能的标签组合 {y_1, y_2, ..., y_n} ,模型都能找到一个假设(或分类器),使得这个假设对数据集 S 中每个样本点的预测与标签  y_i 完全匹配,那么我们就说模型shatter了数据集S。\n\n直观解释:\n\nShatter是指一个假设类能够正确区分数据集中的所有可能的标记组合。\n\n例如,如果有一个数据集S包含 3 个点 {x_1, x_2, x_3},而模型能够对这 3 个点进行任意标签的分类(即标记组合),那么我们说这个假设类 shatter 了这 3 个点。\n\n \n\n2. VC Vapnik-Chervonenkis Dimension)\n\nVC Vapnik-Chervonenkis Dimension)是衡量一个假设类表达能力的指标,反映了模型能够 shatter 多大规模的数据集。具体来说,VC 是指模型能够 shatter 的最大数据集大小。\n\n具体定义:\n\n假设类 H 的 VC ,记作VC(H),是指存在一个数据集 S(大小为 n)使得假设类H可以完全 shatter 这个数据集,但对于所有大小n+1的数据集,假设类 H不再能完全 shatter。\n\n \n\nVC 的意义:VC 越大,表示模型的表达能力越强,能够处理和区分的样本复杂度越高。\n\nVC 的上限:如果一个假设类的 VC 为 d,那么它可以 shatter 最大为d个样本的数据集,而对于更多的样本,可能无法完全 shatter。\n\n \n\n举个例子:
09-17
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值