模式识别笔记

PCA解析：方差决定特征重要性与正态分布特性在贝叶斯分类中的应用

最新推荐文章于 2024-09-20 14:17:07 发布

原创最新推荐文章于 2024-09-20 14:17:07 发布 · 365 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了PCA中为何选择方差大的特征向量作为关键信息载体，以及多维正态分布的性质如何影响模式识别。还介绍了贝叶斯分类器中先验概率、条件概率和后验概率的计算，以及数据特征评估和分类决策方法。

1 PCA为什么按照方差（特征值）大小排列经过分析后的特征向量，并由此确定各向量重要性？

经过pca分析后，得到的一系列特征值就是经过重新组合后的各个向量的方差，选取方差大的作为综合指标因子，作为新的特征进行后续工作。方差越大，认为其蕴含的信息越多，这是因为我们认为真正的信息是相互之间有区别的。在统计上，如果一个序列的各个值之间差别很大，则方差也就越大。所以方差大的，可以带来更强的分辨力，也就是信息量大了。通过数据获得本质就是要通过最有效的，最有区分度的信息来作出判断。从熵的角度来分析，信息数据序列的熵值越大，则认为信息序列包含的信息越多，二者是否有关联？

主成分的选择，使得所选的特征值之和占所有特征值之和的某个比例（80%以上），则可以用新的数据代替原特征数据实现降维目的。

2 多维正态分布的性质

在进行模式识别方法的研究是，常用正态分布概率模型来抽取所需要的训练样本集和测试样本集。

数理统计中，一般来说，如果两个随机变量xi，和xj之间不相关，并不意味着他们一定独立。以下是不相关与独立的定义：

若E{xi xj} = E{xi} E{xj}，则定义随机变量xi， xj不相关；

若p(xi xj)= p(xi) p(xj),则定义随机变量xi，xj是独立的。

从定义中，独立性是比不相关性更强的条件。独立性要求p(xi xj)= p(xi) p(xj)对于xi，xj都成立，而不相关性说的是两个随机变量的积的期望等于两个随机变量的期望的积，它反映了xi，xj的总体性质。若xi，xj相互独立，则二者一定不相关；反之则不一定成立。

但是，在正态分布中，不相关性等价于独立性。多维正态分布中的两个任意分量xi， xj，若二者不相关，则他们之间一定独立。

3数据特征评估方法：

（1）基于距离的可分性判据；（2）基于概率密度分布的判据。

4 贝叶斯分类器设计

（1）基于最小错误率的贝叶斯决策；（2）基于最小错误风险的贝叶斯决策。

先验概率：表示M个事件出现的可能性，不考虑任何其他条件，由统计来表示： P(wi) = Ni/N，样本总数为N，出现wi的次数为Ni，先验概率即可计算，由此得到M个事件各自的先验概率。

条件概率：已知某类别的特征空间中出现特征值X的概率密度，指的是第Wi类样品其属性X是如何分布的。假定只用其一个特征进行分类，即n=1，并已知这两类的类条件概率密度函数分布如下：

概率密度P(X/w1)表示正常产品的属性分布，概率密度P(X/w2)是异常产品的属性分布。

再如全世界华人占地球人口总数的20%，但各个国家华人所占当地人口比例是不同的，类条件概率密度函数P(X/wi)是指wi条件下出现X的概率密度，这里是指第wi类样品其属性X是如何分布的。

工程上的很多问题，统计数据往往满足正态分布规律。正态分布简单方便，参量少，是适宜的数学模型。若采用正态密度函数作为类条件概率密度的函数形式，则函数的期望，方差未知。问题就变成了如何利用大量样品对参数进行估计，只要估计出来这些参数，类条件概率密度函数P(X/wi)就确定了。

后验概率：是指呈现状态X时，该样品分属各类别的概念。这个概率值可以作为识别对象归属的依据。由于属于不同类别的待识别对象存在着呈现相同观测值的可能，即观察到的某一样品的特征向量为X，而在勒种又有不值一类可能呈现这个X值，它属于各类的概率就用P(wi/X)来表示。利用贝叶斯公式计算这种条件概率，称之为状态的后验概率P(wi/X).