原来线性判别分析、平方判别分析、朴素贝叶斯这么简单直白。
前方将出现大量数学公式推导证明,为防止烦躁不适,先复习一下几个重要概念。
1.1一维高斯变量X~N(μ,
),则概率密度函数

1.2多维高斯变量
,X~N(μ,∑) , μ 为p维向量,
为
维的方差协方差矩阵:

1.3贝叶斯公式:

P(A|B)表示B事件发生时A事件发生的概率,往往不能直接求,而P(B|A)求起来较为方便。在这里,P(A)
为事件A发生的先验概率(prior probability)(先验概率就是指根据以往经验和分析得到的概率,可以是相对客观或者存在主观偏差的,比如抛硬币在历史上正反面的概率各是1/2,这就是在无数历史实验得到的客观准确概率)。P(A|B)为后验概率(posterior probability),即条件概率。
下面进入正题:对于常见的分类任务(classification),设表示类别的随机变量Y的样本空间{1,2,……,K},对于样本
属于第k
类的概率:

依据全概率公式将上式分母展开:

其中
是随机选择的样本观测值来自第
类的先验概率。
2.1.当
为标量值(scalar)时,

注意到分母对于
都是一样的,其中参数![]()
,都需要从样本数据集中估计得到。要确定该样本属于哪一类,只有找到使得下式分子最大的k值(防止计算溢出取对数)。

如果K=2且
(常见的二分类且样本类别均衡),分类器将
判定为第一类

的估计如下:


2.1 Linear Discriminant Analysis
当
为向量时,即随机变量
,
,
多元随机变量的高斯分布密度函数:

在此给出与标量情况相同的假设

从上式中可以看出:决策函数
是
的线性函数(所以称为Linear Discriminant Analysis),
这一项表明样本类别的不均衡可能对条件概率值有影响。为方便后期写代码,这里把各个向量长度或矩阵维度列一下:
![]()
当K=2时并且
(二分类问题),

2.2Quadratic Discriminant Analysis
当给出更弱的假设:属于第k类观测向量![]()
![]()
为方便后期写代码,这里把各个向量长度或矩阵维度列一下:

从
来看,决策函数与
,
相关
2.3Naïve Bayesian Classifier
在计算第k类的概率分布时需要计算协方差矩阵,计算复杂度为O(kp^2),在这里可以进一步简化,假设
的各个属性独立,由此计算复杂度降为O(kp):
![]()


所以剩下的任务就是从样本数据集估计
和
了。
2.4Laplacian correction
为了避免因训练样本不充分导致的概率估值为0,需要进行拉普拉斯修正,设
为训练集D(大小为|D|)中的可能类别数,
为第i属性可能的取值数,
为训练集D中属于第k类的样本数。

参考文献:1.《The Elements of Statistical Learning》 2.《The Introduction to Statistical Learning》
本文深入浅出地介绍了三种常见分类算法——线性判别分析、平方判别分析及朴素贝叶斯分类器的基本原理与应用。通过数学公式推导,详细解释了这些算法如何工作,并探讨了它们在不同条件下的适用性。
3463

被折叠的 条评论
为什么被折叠?



