一、贝叶斯分类器详解
贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为理论基础。贝叶斯分类器的分类原理是通过先验概率,利用贝叶斯公式计算出后验概率,选择最大后验概率所对应的分类结果。
贝叶斯准则
其中,P(c)是先验概率,P(x|c)样本x相对于;类标记c的类条件概率,或称为似然(likelihood);P(x)是用于归一化的证据因子。对于给定样本x,证据因子与类标记无关,则估计P(c|x)可转换为基于训练数据D来估计鲜艳P(c)和似然P(x|c)。类先验概率P(c)可通过各类样本出现的频率来进行估计。对于类条件概率P(x|c),一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。
对于朴素贝叶斯分类器,朴素(naive)的含义是各个特征属性之间是相互独立的。例如,在计算p(w|ci)时,我们将特征向量w展开为独立子特征,则转化为,这里我们有假设所有特征都独立,即可以使用以下公式来计算