文章目录
一、基本思想
线性判别分析(Linear Discriminant Analysis,简称 LDA)的思想:给定训练样例集,设法将样例投射到一条直线或一个超平面上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线或超平面上,再根据投影点的位置来确定新样本的类别。
二、数学推导
1.二分类
给定数据集 D = { ( x i , y i ) } i = 1 m , y i ∈ { 0 , 1 } D=\{(x_i,y_i)\}_ {i=1}^m, y_i\in\{0,1\} D={ (xi,yi)}i=1m,yi∈{ 0,1}。令 X i X_i Xi表示样例集合, μ i \mu_i μi表示均值向量( μ 1 \mu_1 μ1表示 x ∈ X 1 x\in X_1 x∈X1的 x x x的均值), ∑ i \sum_i ∑i表示协方差矩阵( ∑ 0 = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T \sum_0=\sum_{x\in X_0}{(x-\mu_0)(x-\mu_0)^T} ∑0=∑x∈X0(x−μ0)(x−μ0)T),此处 i ∈ { 0 , 1 } i\in\{0,1\} i∈{ 0,1}。则两类样本的中心在直线上的投影为 w T μ i w^T\mu_i wTμi;两类样本所有点投射到直线上的协方差为 w T ∑ i w w^T\sum_iw wT∑iw。
投射的协方差推导过程:
由 ∑ i = ∑ x ∈ X i ( x i − μ i ) ( x i − μ i ) T \sum_i=\sum_{x\in X_i}(x_i-\mu_i)(x_i-\mu_i)^T ∑i=∑x∈Xi(xi−μi)(xi−μi)T可得投射后的协方差 ∑ i ′ = ∑ x ∈ X i ( w T x i − w T μ i ) ( w T x i − w T μ i ) T \sum_i'=\sum_{x\in X_i}(w^Tx_i-w^T\mu_i)(w^Tx_i-w^T\mu_i)^T ∑i′=∑x∈Xi(wTxi−wTμi)(wTxi−wTμi)T,又