1.主成分析
主成分可以用已有的一个或多个变量表示。比如,可以使用“维生素C”这个变量来区分不同的食物。因为蔬菜含维生素C而肉类普遍缺乏,所以可以通过“维生素C这个变量来区分蔬菜和肉类。但是无法进一步区分不同的肉类。
为了进一步区分不同的肉类,可以选择把脂肪含量作为第二个变量,因为肉类含有脂肪,而大部分蔬菜则不然。由于脂肪和维生素C的计量单位不同,因此在组合之前,必须先对他们进行标准化。
标准化类似使用百分比为位数表示每个变量,以次将所有变量同意道一个标准尺度上,这样一来,就可以产生一个新变量:”维生素C-脂肪“。
例如:
2.关联规则
监督学习
1.回归分析
局限性:
2.K最近邻算法和异常检测
物以类聚,人以群分
3.支持向量机
勾画最佳分界线
支持向量机的主要目标是得到一条能用于分组的最佳分界线。这并不是听上去那么简单,因为分解线可能有多天。
4.决策树
决策树之所以深受大家喜欢,因为比较容易解释
5.随机森林
6.神经网络