哈工大机器学习 复习(三)

本文深入探讨了分类理论中的贝叶斯分类器与KNN分类器,讲解了贝叶斯分类器如何通过计算错误概率来实现理论上最优的分类效果,以及KNN分类器在接近最优分类的同时,如何通过密度估计进行决策。文章还详细解析了Parzen窗核密度估计和KNN密度估计的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类理论与非参数分类器

多维高斯:p(X;\overrightarrow{\mu},\Sigma)=\frac{1}{\left ( \sqrt{2\pi}\right )^{\frac{n}{2}} \left | \Sigma \right |^{\frac{1}{2}}}exp\left \{ -\frac{1}{2}(X-\overrightarrow{\mu})^{T}\Sigma^{-1}(X-\overrightarrow{\mu}) \right \}

分类区:P(X|Y)

图示:

贝叶斯Error

我们需要计算出错的概率:将样本分配给错误类的概率。

上图中\pi_{1}\pi_{2}对应于类别的先验,L1和L2对应误差区域,p_{1}(x)p_{2}(x)是概率密度,实线代表贝叶斯决策边界。

贝叶斯误差是分类误差概率的下界。

贝叶斯分类器是理论上最好的分类器,可以最大限度地减少分类错误的概率。

但是计算贝叶斯误差往往是一个复杂的问题,因为要进行密度估计,还要对密度函数进行积分

学习分类器:

决策规则:h(X)=-\ln p_{1}(X)+\ln p_{2}(X)\begin{matrix} > \\ < \end{matrix}\ln \frac{\pi_{1}}{\pi_{2}}

 

Supervised Learning

KNN分类器:其中h(X)由所有数据表示,并由一个算法表示。

向量空间中的类:

KNN是接近最优的

  • 渐近地,1近邻分类的误差率小于Bayes误差率的两倍。特别是,如果Bayes率为0,则渐近错误率为0。

如何估计p(X)?

  • Parzen窗核密度估计:\widehat{p}(X)=\frac{1}{N}\sum _{i=1}^{N}\kappa (X-x_{i}),更一般的形式:\widehat{p}(X)=\frac{1}{N}\frac{k(X)}{V},对于D维边长为h的立方体的体积公式V=h^{D}
  • Parzen窗函数意思是对于数据x_{n},如果它位于以X为中心的边长为h的立方体中,那么量\kappa (x-x_{i})值等于1,否则它的值为0。上述两个式子就是点X处的概率密度估计函数。
  • kNN密度估计:\widehat{p}(X)=\frac{1}{N}\frac{(k-1)}{V(X)}

基于KNN密度估计的贝叶斯分类器:h(X)=-\ln \frac{p_{1}(X)}{p_{2}(X)}=-\ln \frac{(k_{1}-1)N_{2}V_{2}(X)}{(k_{2}-1)N_{1}V_{1}(X)}\begin{matrix} >\\< \end{matrix}\ln \frac{\pi_{1}}{\pi_{2}}

PRML中对于KNN的一些补充:

考虑一个以x为中心的小球体,然后我们估计概率密度p(x)。允许球体的半径自由增长,知道它精确地包含K个数据点。即p(x)=\frac{K}{NV}

K的值控制了光滑程度,K不能过大也不能过小。

设我们有一个数据集,其中N_{k}个数据点属于类别C_{k},数据点的总数为N,因此\sum _{k}N_{k}=N。如果对一个新的数据点x进行分类,我们可以画一个以x为中心的球体,这个球体精确地包含K个数据点。假设球体的体积为V,并且包含来自类别C_{k}K_{k}个数据点。则提供了与每个类别关联的一个概率密度的估计:

p(x|C_{k})=\frac{K_{k}}{N_{k}V},类似地,无条件概率密度为p(x)=\frac{K}{NV}  而类先验为p(C_{k})=\frac{N_k}{N},由贝叶斯定理:

p(C_{k}|x)=\frac{p(x|C_{k})p(C_{k})}{p(x)}=\frac{K_{k}}{K},若想最小化错误分类的概率,我们可以把测试点x分配给有着最大后验概率的类别,即最大的\frac{K_{k}}{K}

 

KNN需要存储整个训练数据集,代价会比较高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值