数据挖掘分类算法的优缺点总结

本文总结了数据挖掘中的几种分类算法,包括决策树、KNN、朴素贝叶斯、SVM、AdaBoost、Logistic回归和人工神经网络。讨论了各自的优点,如决策树的易于理解和解释,KNN的简单有效,朴素贝叶斯的参数估计少,SVM的泛化能力,AdaBoost的高精度,Logistic回归的低计算成本,以及神经网络的高精度。同时也指出了它们的缺点,如决策树的过拟合,KNN的计算量大,朴素贝叶斯的属性独立假设,SVM的缺失数据敏感,AdaBoost的退化问题,Logistic回归的欠拟合,以及神经网络的参数调整复杂。

最近在学习数据挖掘中的分类算法,顺便整理了各种分类算法的优缺点。


决策树

一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。


优点:

1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;

2. 数据预处理阶段比较简单,且可以处理缺失数据;

3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树,其他技术往往需要数据属性的单一;

4. 是一个白盒模型,若给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式;

5. 在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。


缺点:

1. 对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性;

2. 对噪声数据较为敏感;

3. 容易出现过拟合问题;

4. 忽略了数据集中属性之间的相关性。


可以处理的样例数据集:Soybean数据集

diaporthe-stem-canker,6,0,2,1,0,1,1,1,0,0,1,1,0,2,2,0,0,0,1,1,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0
diaporthe-stem-canker,4,0,2,1,0,2,0,2,1,1,1,1,0,2,2,0,0,0,1,0,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0
diaporthe-stem-canker,3,0,2,1,0,1,0,2,1,2,1,1,0,2,2,0,0,0,1,0,3,0,1,1,0,0,0,0,4,0,0,0,0,0,0
diaporthe-stem-canker,4,0,2,1,0,2,0,2,0,2,1,1,0,2,2,0,0,0,1,0,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0
charcoal-rot,6,0,0,2,0,1,3,1,1,0,1,1,0,2,2,0,0,0,1,0,0,3,0,0,0,2,1,0,4,0,0,0,0,0,0
charcoal-rot,4,0,0,1,1,1,3,1,1,1,1,1,0,2,2,0,0,0,1,1,0,3,0,0,0,2,1,0,4,0,0,0,0,0,0
charcoal-rot,3,0,0,1,0,1,2,1,0,0,1,1,0,2,2,0,0,0,1,0,0,3,0,0,0,2,1,0,4,0,0,0,0,0,0
charcoal-rot,5,0,0,2,1,2,2,1,0,2,1,1,0,2,2,0,0,0,1,0,0,3,0,0,0,2,1,0,4,0,0,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值