分类理论与非参数分类器
多维高斯:
分类区:P(X|Y)
图示:
贝叶斯Error
我们需要计算出错的概率:将样本分配给错误类的概率。
上图中对应于类别的先验,L1和L2对应误差区域,
是概率密度,实线代表贝叶斯决策边界。
贝叶斯误差是分类误差概率的下界。
贝叶斯分类器是理论上最好的分类器,可以最大限度地减少分类错误的概率。
但是计算贝叶斯误差往往是一个复杂的问题,因为要进行密度估计,还要对密度函数进行积分
学习分类器:
决策规则:
Supervised Learning
KNN分类器:其中h(X)由所有数据表示,并由一个算法表示。
向量空间中的类:
KNN是接近最优的
- 渐近地,1近邻分类的误差率小于Bayes误差率的两倍。特别是,如果Bayes率为0,则渐近错误率为0。
如何估计p(X)?
- Parzen窗核密度估计:
,更一般的形式:
,对于D维边长为h的立方体的体积公式
- Parzen窗函数意思是对于数据
,如果它位于以X为中心的边长为h的立方体中,那么量
值等于1,否则它的值为0。上述两个式子就是点X处的概率密度估计函数。
- kNN密度估计:
基于KNN密度估计的贝叶斯分类器:
PRML中对于KNN的一些补充:
考虑一个以x为中心的小球体,然后我们估计概率密度p(x)。允许球体的半径自由增长,知道它精确地包含K个数据点。即
K的值控制了光滑程度,K不能过大也不能过小。
设我们有一个数据集,其中
个数据点属于类别
,数据点的总数为N,因此
。如果对一个新的数据点x进行分类,我们可以画一个以x为中心的球体,这个球体精确地包含K个数据点。假设球体的体积为V,并且包含来自类别
的
个数据点。则提供了与每个类别关联的一个概率密度的估计:
,类似地,无条件概率密度为
而类先验为
,由贝叶斯定理:
,若想最小化错误分类的概率,我们可以把测试点x分配给有着最大后验概率的类别,即最大的
。
KNN需要存储整个训练数据集,代价会比较高。