前序文章:
机器学习笔记—模式分类(二)参数判别估计法(最大似然估计和贝叶斯参数估计)1
机器学习笔记—模式分类(三)参数判别估计法2(最大似然估计)
机器学习笔记—模式分类(四)参数判别估计法3(贝叶斯参数估计)
同类文章:
6、充分统计量
我们把任何关于样本集D的函数都称为一个统计量。
一个充分统计量就是一个关于样本集D的函数s,其中包含了能够有助于估计某种参数θ的所有相关信息。
充分统计量的常规定义:一个统计量s对参数θ是充分的,如果p(D|s, θ)与θ无关。如果把θ看作随机变量(适合贝叶斯情况),则可以写成等价形式:
p(θ|s,D)= p(θ|s)*p(D|s, θ) / p(D|s)
充分统计量的一个基本定理是因式分解定理:一个统计量s是关于参数θ的充分统计量,当且仅当概率分布函数P(D|θ)能够被因式分解为两个函数的积的形式,即P(D|θ)=g(s, θ)*h(D),其中一个函数只依赖于s和θ,而另一个函数只依赖于训练样本。
因式分解定理的贡献在于告诉我们能够把用于定义充分统计量的p(D|s, θ)这个形式非常复杂的概率密度函数,转化为如下非常简单的形式:
这个定理同时阐明一个充分统计量能够被概率密度函数p(x|θ)完全确定,与先验选取且不一定正确的p(θ)无关。
定义核密度函数为
则P(D|θ)可以分解为P(D|θ)=核密度*H(D),这样得到的分解形式唯一。
充分统计量和核密度对于参数估计判别的重要性在于:经典参数估计最实用的一些问题总是涉及概率密度函数,且这些概率密度常常拥有简单形式的充分统计量和简单形式的核密度。
因此在理论上如果能找到合适的充分统计量,那么就只需要基于这个充分统计量来设计分类器,本质上这是一个降低数据量的问题,把一个巨大数据量的集合用数据量小得多的充分统计量来表示且保留所有有用的信息。
因此可以用充分统计量来构造贝叶斯分类器,最好的例子就是对于高斯分布的贝叶斯分类器,仅仅依赖充分统计量μ和Σ就足够了。
对于最大似然情况,在寻找使得参数θ的条件概率密度p(D|θ)=g(s, θ)*h(D) 最大化的θ值时,我们可以只关注g(s, θ)而不用关注归一化的核密度,除非核密度具有更简单的形式;
对于贝叶斯参数估计/学习情况,核密度的重要性得以体现,因为
p(θ|D)=p(D|θ)*p(θ)/p(D)
如果我们对于θ的先验知识不确定,那么p(θ)通常选择均匀分布或选择一个随θ变化非常缓慢的函数,此时p(θ|D)几乎等于核密度;即当先验概率分布为均匀分布时,核密度函数为参数向量的后验分布;当先验分布与均匀分布相差很多时,核密度依旧给出了参数向量的渐进后验分布。
对于指数族函数如高斯函数、指数函数、瑞利函数、泊松函数等,可以先计算参数条件概率密度p(D|θ),然后进行因式分解,通过定理p(D|θ)=g(s, θ)*h(D)分解为两个函数的乘积进而求出充分统计量和核密度,进而求出贝叶斯参数后验概率密度p(θ|D)。
7、维数问题
在实际的多类别问题中,通常认为数量众多的各个特征对于实现正确的分类都有它自己的贡献,但这些特征之间可能存在相关性即存在某种信息的冗余,因此需要考虑两个问题:(1)特征的维数(和训练样本集的大小)对于分类精度的影响;(2)特征的维数对于设计分类器时计算复杂度的影响。
一个容易想到的降低误差概率的方法就是再引进新的独立特征,如果问题的概率结构完全已知,那么增加新的特征不会增加贝叶斯风险,最坏情况也就是最终的贝叶斯分类器忽略新增加的特征,而只要心特征确实提供了有用的信息,那么分类器的精确度显然会提高。
但在实际应用中通常发现特征个数增加到某个临界点后,继续增加特征会导致分类器的性能变差,这似乎与理论相矛盾。这个问题的核心可以追溯到最初假设的概率模型与实际情况之间不匹配(如高斯假设或条件假设本身就是不正确的),或者因为实际所用的训练样本个数非常有限导致概率分布估计的不正确。
考虑对n个c类d维训练样本的高斯分布用最大似然方法进行参数估计,根据需要计算的分类函数g(x),c个类别总的计算复杂度为O(c*d^2*n),复杂度跟训练样本的个数n和样本的特征维数d均有关。
在实际问题中经常遇到训练样本不足产生过拟合的情况,解决办法有:(1)降低问题的维数,即重新设计特征提取模块,只选取现有特征的一个子集,或者通过某种方法把几个特征组合在一起;(2)假设各个类别的协方差矩阵相同,这样就能把全部的数据都归到一起;(3)寻找协方差矩阵更好的估计。
8、成分分析和判别函数
处理过多维数的一种方法是通过某种方法把几个特征组合在一起,线性组合方法对几个特征作线性组合,容易计算和解析分析,其本质是把高维的数据投影到低维空间。
两种经典的特征线性组合/线性变换的方法是:(1)主成分分析PCA,这一方法寻找在最小均方意义下最能够代表原始数据的投影方法;(2)多重判别分析MDA,即多类别下的Fisher线性判别分析,这一方法寻找在最小均方意义下最能够分开各类数据的投影方法。
根据投影直线公式,系数ai是向量x对应于基ei的系数,被称作主成分。从几何上说,样本点x1,...,xn在d维空间形成了一个d维椭球形状的云团,那散步矩阵的本征向量就是这个云团的主轴,主成分分析通过提取云团散布最大的那些方向的方法,达到对特征空间进行降维的目的。虽然PCA方法对于代表数据样本非常有效,但没有理由表明主成分对区分不同的类别有什么大作用,即PCA方法寻找的是用来有效表示样本的主轴方向,而判别分析方法寻找的是用来有效分类的方向。
Fisher判别分析通过适当的选择投影直线,找到能够最大限度的区分各类数据点的投影方向,用于两类判别。
假设有一组d维训练样本的各个成分做线性组合,得到y=wt*x,w和x均有d个分量,对于第i个训练样本xi会产生n个结果yi,如果w的模长为1,那么每个yi就是把xi向量向方向为w的直线进行投影的结果,即d维向量xi映射到1维yi上。注意如果各个类别的样本在原始的d维空间中就是不可分的,那无论向什么方向的投影都无法产生可分的结果,该方法也就不适用了。
两类和多类别的Fisher线性判别分析采用广义的瑞利商J(w)作为准则函数,求出使得J(w)最大化时的w即可求出最佳判决边界方程wt*x+w0=0。对于c类问题把Fisher线性判别准则作推广就需要c-1个判别函数,即投影问题实际上是从d维空间向c-1维空间作投影,并且已经假设d>=c。
9、期望最大化算法
在贝叶斯决策论(机器学习笔记—模式分类(一)绪论&贝叶斯决策论)中学习了样本点在某些特征丢失的情况下如何进行分类的问题,现在考虑把最大似然估计方法推广到允许根据一些可能包含丢失特征的样本来学习某些分布相关参数的问题。而如果数据样本的各种特征都是完整的 ,那么可以直接运用最大似然估计来求使对数似然函数L(θ)最大化的那个θ。
期望最大化/EM算法的核心思想是根据已有的数据来递归估计似然函数。假设样本集D服从某个特定分布,其中的样本Xk={Xkg,Xkb},表示这个样本由两部分组成哼,一部分特征Xkg是完整的,另一部分特征Xkb已经丢失或损坏,将这些不同的特征分别用两个集合Dg和Db组成,D=Dg U Db。
期望最大化算中的E步函数:
表示求关于丢失特征对数似然函数的期望,其中θ(i)为第i步求得的固定值,是当前步骤对整个分布最好的估计参数,利用E步公式基于θ(i)求取下一步最好的参数θ(i+1)直到达到收敛判据即为M步。
广义期望最大化/GEM算法比EM算法要松一些,只要求在算法的M步求取一个有所改善的参数θ(i+1),而不要求是最优/最好的那个。
实际应用中,期望最大化有时也用来笼统地表示某些数据的似然函数能够递归增加的迭代过程,尽管不是严格意义上的期望最大化算法。
本文深入探讨了模式分类中的关键概念,包括充分统计量的概念及其重要性,维数问题及解决方法,以及成分分析和判别函数的应用。此外,还介绍了期望最大化算法的基本原理和应用场景。

被折叠的 条评论
为什么被折叠?



