机器学习中的相关算法的优缺点(机器学习实战整理)
1.k-近邻算法
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高
适用数据范围:数值型和标称型
2.决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不想管特征数据。
缺点:可能会产生过度匹配问题
适用数据类型:数值型和标称型
3.朴素贝叶斯(基于概率论的分类方法)
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
4.Logistic回归
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
5.支持向量机
优点:泛化错误率低,计算开销不大,结果易于理解
缺点:对参数调节和核函数的选择敏感,原始分类不加修改仅适用于处理二类问题。
适用数据类型:数值型和标称型数据。
6.利用AdaBoost元算法提高分类性能
优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。
缺点:对离群点敏感
适用数据类型:数值型和标称型数据
7.回归
优点:结果易于理解,计算上不复杂。
缺点:对非线性的数据拟合不好
适用数据类型:数值型和标称型数据
8.树回归
优点:可以对复杂和非线性的数据建模
缺点:结果不易理解
适用数据类型:数值型和标称型数据
9.K-均值聚类算法
优点:容易实现
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢
适用数据类型:数值型数据
10.Apriori算法
优点:易编码实现
缺点:在大数据集上可能较慢
适用数据类型:数值型或者标称型数据
11.FP-growth算法
优点:一般要快于Apriori
缺点:实现比较困难,在某些数据集上性能会下降
适用数据类型:标称型数据
12.PCA降维
优点:降低数据的复杂性,识别最重要的多个特征。
缺点:不一定需要,且可能损失有用信息
适用数据类型:数值型数据
13.奇异值分解
优点:简化数据,去除噪声,提高算法的结果
缺点:数据的转换可能难以理解
适用数据类型:数值型数据