机器学习——线性判别准则（LDA）和线性分类算法（SVM）

最新推荐文章于 2022-01-20 18:49:38 发布

原创

最新推荐文章于 2022-01-20 18:49:38 发布 · 3.2k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #支持向量机 #分类

本文介绍了线性判别分析(LDA)与支持向量机(SVM)的基础概念，展示了LDA的代码实现，以及SVM在不同核函数（线性、多项式、高斯）下对鸢尾花和月球数据集的可视化分类。通过实例对比，突出了这两种方法在数据处理和分类任务中的应用。

目录酱

一、LDA与SVM简介
二、LDA实现代码
三、SVM数据集进行可视化分类
四、总结
参考链接

一、LDA与SVM简介

线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的有监督数据降维方法。LDA的主要思想是将一个高维空间中的数据投影到一个较低维的空间中，且投影后要保证各个类别的类内方差小而类间均值差别大，这意味着同一类的高维数据投影到低维空间后相同类别的聚在一起，而不同类别之间相距较远。
在机器学习中，支持向量机（SVM）是具有相关学习算法的监督学习模型，其分析用于分类和回归分析的数据。给定一组训练示例，每个示例标记为属于两个类别中的一个或另一个，SVM训练算法构建一个模型，将新示例分配给一个类别或另一个类别，使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点，映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间，并根据它们落在哪个边缘预测属于一个类别。

二、LDA实现代码

导入要使用的包

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as lda#导入LDA算法
from sklearn.datasets._samples_generator import make_classification #导入分类生成器
import matplotlib.pyplot as plt #导入画图用的工具
import numpy as np
import pandas as pd

获得数据集并进行训练，用上面导入的make_classification函数获得数据集

x,y=make_classification(n_samples=500,n_features=2,n_redundant=0,n_classes=2,n_informative=1,n_clusters_per_class=1,class_sep=0.5,random_state=100)
"""
n_features :特征个数= n_informative（） + n_redundant + n_repeated
n_informative：多信息特征的个数
n_redundant：冗余信息，informative特征的随机线性组合
n_repeated ：重复信息，随机提取n_informative和n_redundant 特征
n_classes：分类类别
n_clusters_per_class ：某一个类别是由几个cluster构成的

"""
plt.scatter(x[:,0],x[:,1], marker='o', c=y)
plt.show()
x_train=x[:60, :60]
y_train=y[:60]
x_test=x[40:, :]
y_test=y[40:]

在这里插入图片描述

将数据集分为训练集和测试集，分类比为6：4，训练完之后利用测试集获得准确率

#分为训练集和测试集，进行模型训练并测试
x_train=x[:300, :300]
y_train=y[:300]
x_test=x[200:, :]
y_test=y[200:]
lda_test=lda()
lda_test.fit(x_train,y_train)
predict_y=lda_test.predict(x_test)#获取预测的结果
count=0
for i in range(len(predi