分类的作用
确定对象属于哪个预定义的目标类,并且类标号必须是离散的。回归里面是连续的。
分类的定义
得到一个目标函数f,把每个属性集x映射到一个预定义的类标号y。 目标函数也称为分类模型。
分类的目的
- 描述性建模
- 预测性建模
适合范围
- 比较适合标称的或者二元的
- 不怎么适合序数 比如{高收入,中收入,低收入}
注意
- 多路划分的Gini指标比两个二元划分都小。
- 都容易去选择多分支的
特点
- 是一种构建分类模型的非参数方法。 不要求任何先验假设,不假定类和其他属性服从一定的概率分布。
- 建立好后分类很快
- 容易理解
- 对噪声的干扰具有很好的鲁棒性
- 存在数据碎片的问题
- 决策边界是平行于坐标轴的,如果只是使用单个属性的测试条件不能很好的划分
误差
- 训练误差
- 泛化误差