- K-近邻算法
优点:精度高 对异常值不敏感 无数据输入假定
缺点:复杂度高
适用范围:数值型 标称型
收集数据
准备数据 距离计算所需要的数据。最好结构化
分析数据
训练算法 不适合
测试算法 计算错误率
使用算法
2. 决策树
优点:计算复杂度不高 输出结果易于理解 可以处理不相关特征数据
缺点:过度匹配
收集数据
准备数据 只适用于标称型,数值型离散化
分析数据
训练算法 构造树的数据结构
测试算法 计算错误率
使用算法 使用任何监督学习
- 朴素贝叶斯
优点:数据很少也有效
缺点: 数据输入格式敏感
适用:标称型 - Logistic回归
优点:计算代价低
缺点:欠拟合 分类精度不高
适用:数值型 标称型 - 支持向量机
优点:泛化错误率低 计算开销小
缺点:参数调节 核函数 敏感 二分类 - AdaBoost提高分类性能
优点:泛化错误率低
缺点:离群点敏感
**
利用回归预测数值型数据
**
- 线性回归
优点:计算容易
缺点:对非对成型拟合差 - 树回归
优点:非对成型 复杂 建模
**
无监督学习
**
- 利用K-均值聚类对未标注数据分组
缺点:收敛到局部最小值 大规模数据上收敛慢 - FP-growth高效发现频繁项集
缺点:大规模收敛慢