前序文章:
机器学习笔记—模式分类(二)参数判别估计法(最大似然估计和贝叶斯参数估计)1
机器学习笔记—模式分类(三)参数判别估计法2(最大似然估计)
机器学习笔记—模式分类(四)参数判别估计法3(贝叶斯参数估计)
机器学习笔记—模式分类(五)参数判别估计法4(充分统计量、维数、特征线性组合、特征缺失)
机器学习笔记—模式分类(六)参数判别估计法5(序列判决之隐马尔可夫模型HMM)
机器学习笔记—模式分类(七)非参数技术1(序言、非参数的概率密度估计)
同类文章:
暂无
下面我们将看到即使我们只依赖某个x的单一的最近邻来作估计也能够达到足够好的性能,即最近邻规则和k近邻规则。
5、最近邻规则
对于测试样本点x,在样本集合Dn中距离它最近的样本点记为x’,那么最近邻规则的分类方法就是把点x分为x’所属的类别,最近邻规则是次优的方法,通常误差率比最小可能误差率(即贝叶斯误差率)要大,然而在无限训练样本情况下这个误差率不会超过贝叶斯误差率的两倍。
感性地理解,注意赋予最近邻点的标记θ’是一个随机变量,θ’=wi的概率无非就是后验概率P(wi|x’),当样本个数非常大的时候,有理由认为x’距离x足够近,使得P(wi|x’)~=P(wi|x),因为这恰好是状态位于wi的概率,因此最近邻规则自然是真是概率的一个有效近似。应用时可以根据样本点x将特征空间分成一个个小的Voronoi网格。
k近邻规则:这个规则时最近邻规则的推广,即将一个测试数据点x分类为与它最接近的k个近邻中出现最多的那个类别。
为了降低最近邻规则搜索的复杂度,通常有3种方法:
(1)计算部分距离,只使用全体d个维数的一个子集r,相当于预先假设了从子集r中计算得到的部分距离足以有效地代表全部空间的情况;
(2)预建立结构,首先建立某种形式的搜索树,在这个搜索树上各个原型样本点都被有选择的互相连接,分类时限对搜索树的几个根节点进行计算选择最有可能的那个,然后对属于这个根节点的其他样本点进行计算,依次递归的执行类似操作直到找到最近的那个近邻,该方法不能保证找到的结果就是真正的最近邻,但为了降低计算复杂度不得不在准确率上付出一定的代价;
(3)对训练样本加以剪辑,在训练过程中有选择的消去那些对于问题来说无用的训练样本,称为剪辑、修剪、剪枝或浓缩,一个简单方法时把周围都是同一类别的样本点删除,该方法不改变判决边界因此也不增加误差率同时又减少了访问次数。
6、距离度量和最近邻分类
(1)欧几里得距离
(2)Minkowski距离/Lk范数
欧几里得距离是L2范数,L1范数也称为Manhattan距离或街区距离,L∞范数表示投影距离中的最大值
(3)Tanimoto距离
D(S1,S2)=(n1+n2-2n12)/(n1+n2-n12)
其中n1和n2分别是集合S1和S2的元素个数,n12是这两个集合的交集中的元素个数。
(4)切空间距离
在最近邻规则中,如果不加考虑的任意选择距离度量会有很多问题,解决的一个办法是使用更加一般化的度量,其中一个重要问题是不变量问题,需要找到对一些已知的变换如平移、旋转和尺度变换等不敏感的距离度量。
切空间距离分类器使用一个全新的距离度量和一个可以近似任意变换的线性逼近;假设已经知道所需处理的问题会涉及r种变换,如水平平移、垂直平移、剪切、旋转、尺度变换和线条细化等;
对每个原型样本点x’都进行每一种变换操作Fi(x’,ai),表示图像x’经过参数ai的某种变换得到新的图像,如经过角度为ai的旋转变换得到新的图像;
对每一种变换操作,都构造一个切向量TVi=Fi(x’,ai)-x’;
在对测试点x进行分类时,通过寻找使得测试点x到样本点x’的切空间距离Dtan(x’,x)最优化的那个a来得到测试点x到x’的切空间距离。
本文围绕机器学习中的最近邻规则和k近邻规则展开。介绍了最近邻规则将测试样本分为最近样本所属类别,在无限训练样本下误差率不超贝叶斯误差率两倍;k近邻规则是其推广。还提及降低搜索复杂度的方法,以及多种距离度量和最近邻分类方式。
2399

被折叠的 条评论
为什么被折叠?



