高斯判别分析 GDA
多元高斯分布
正态分布X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2),他的概率密度函数为,φ(x)\varphi(x)φ(x)
φ(x)=1σ2πe−(x−μ)22σ2\varphi(x) = \frac{1}{\sigma\sqrt{2\pi} }e^{\frac{-(x-\mu)^2}{2\sigma^2} }φ(x)=σ2π1e2σ2−(x−μ)2
假设变量XiX_iXi之间相互独立且 Xi∼N(μi,σi2)X_i\sim N(\mu_i, \sigma_i^2)Xi∼N(μi,σi2)
令x=[x1,x2,...,xn]T;u=[μ1,μ2,...,μn]T;σ=[σ1.σ2,...,σn]Tx = [x_1,x_2,...,x_n]^T; u = [\mu_1,\mu_2,...,\mu_n]^T ;\sigma = [\sigma_1.\sigma_2,...,\sigma_n]^Tx=[x1,x2,...,xn]T;u=[μ1,μ2,...,μn]T;σ=[σ1.σ2,...,σn]T
则多元高斯分布的密度函数可以表示为:

对于上述指数部分,设

对其转换为矩阵表示形式

由Xi相互独立可知

所以多元高斯分布X∼N(μ,∑)X\sim N(\mu,\sum)X∼N(μ,∑)的密度函数为

Mean向量μ∈Rn协方差矩阵∑马氏距离r2=(x−μ)T∑−1(x−μ)Mean向量\mu \in \mathbb{R}^n \\协方差矩阵\sum\\马氏距离r^2=(x-\mu)^T\sum^{-1}(x-\mu)Mean向量μ∈Rn协方差矩阵∑马氏距离r2=(x−μ)T∑−1(x−μ)
二元高斯分布


高斯判别分析模型
如果特征值x是连续v的随机变量,可以使用高斯判别分析模型完成特征值测分类。
假设特征值是二分类,结果服从0-1分布,(如果是多分类就服从二向分布)
模型:
y∼Bernoulli(ϕ)x∣y=0∼N(μ0,∑)x∣y=1∼N(μ1,∑)y\sim Bernoulli(\phi)\\x|y = 0 \sim N(\mu_0,\sum) \\x|y=1\sim N(\mu_1,\sum)y∼Bernoulli(ϕ)x∣y=0∼N(μ0,∑)x∣y=1∼N(μ1,∑)
概率密度函数为:




模型待估计的参数为φ,∑,μ0,μ1\varphi,\sum,\mu_0,\mu_1φ,∑,μ0,μ1,模型有两个不同的期望,有一个相同的协方差。
给定m个样本,该模型的极大似然函数的对数方程为:


解析解:

GDA 和logistic回归



GDA可以写成逻辑回归的形式,但是GDA有更严格的模型假设,设p(x∣y)p(x|y)p(x∣y)为高斯混合分布的。如果混合高斯模型假设是正确的正确的,那么GDA有更高的拟合度。
实践中,逻辑回归比使用GDA更加普遍。
高斯判别分析(GDA)是一种统计方法,用于基于连续特征值进行分类。它假设特征值服从多变量正态分布,每个类别有自己的均值向量和相同的协方差矩阵。GDA模型可以通过极大似然估计求解参数,并可以转化为逻辑回归形式。在实践中,尽管逻辑回归更为常见,但GDA在模型假设正确时能提供更好的拟合度。
2051

被折叠的 条评论
为什么被折叠?



