3个方向:
1)基于数据库
2)人工智能和机器学习
3)基于统计学
1. 分类和预测的区别
分类:
1) 预测分类标号(或离散值)
2) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据
预测:
1) 建立连续函数值模型,比如预测空缺值
2. 判定树
1) 什么是判定树?
类似于流程图的树结构
每个内部节点表示在一个属性上的测试
每个分枝代表一个测试输出
每个树叶节点代表类或类分布
2) 判定树的生成由两个阶段组成
a) 判定树构建
开始时,所有的训练样本都在根节点
递归的通过选定的属性,来划分样本 (必须是离散值)
b) 树剪枝
许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝
3) 判定树的使用:对未知样本进行分类
通过将样本的属性值与判定树相比较
构造判定树的算法如下:
