本文基于博客https://blog.youkuaiyun.com/kwame211/article/details/81530766一文,将其改为matlab上的实现。高斯判别分析的推导过程可参见https://zhuanlan.zhihu.com/p/38269530一文。
函数1:GDA参数求解
// GDA参数求解
function [ fi, u_pos, u_neg, sigma ] = GDA( x,y )
% 高斯判别分析模型的参数估计
% x为样本特征,y为样本类别
m=size(x,1);% 记录样本总数
x_pos=[];% 样本正例
x_neg=[];% 样本负例
y_pos=[];
y_neg=[];
for i=1:size(x,1)
if y(i)==1
x_pos=[x_pos;x(i,:)];
y_pos=[y_pos;y(i)];
else
x_neg=[x_neg;x(i,:)];
y_neg=[y_neg;y(i)];
end
end
fi=size(y_pos,1)/m; %计算fi,即样本中正例所占的比例
u_pos=sum(x_pos,1)./(size(y_pos,1));% 计算u1
u_neg=sum(x_neg,1)./(size(y_neg,1));% 计算u0
xx=[];
for i=1:m
if y(i)==1
xx=[xx;x(i,:)-u_pos];
else
xx=[xx;x(i,:)-u_neg];
end
end
sigma=(xx'*xx)./m;
end
函数2:高斯函数
function [ prob ] = Gaussian( x,mean,cov )
% 计算输入x的概率密度值
diff=x-mean;
n=size(x,2);
cov=cov+0.001;%保证矩阵行列式非零
prob=exp((diff*inv(cov)*diff')/(-2))/(((2*pi).^(n/2)).*(abs(det(cov))).^0.5);
end
函数3:预测
function [ y_pred, accuracy ] = predict( x,y,u_pos,u_neg, sigma )
% 类别判断
for i=1:size(x,1)
x_pos=Gaussian(x(i,:),u_pos,sigma);
x_neg=Gaussian(x(i,:),u_neg,sigma);
if x_pos>x_neg
y_pred(i)=1;
else
y_pred(i)=0;
end
end
accuracy=sum(y-y_pred'==0)/size(y,1);
end
主函数
[ fi, u_pos, u_neg, sigma ] = GDA( x_train,y_train );
[ y_pred, accuracy ] = predict( x_test,y_test,u_pos,u_neg, sigma );
应用于UCI乳腺癌数据集,以20%的数据作为训练集,精度可达0.95