1、机器学习中分类和预测算法的评估:
准确率、
速度、
强壮性(部分数据缺失情况,能否正确判断)、
可规模性(数据量变大,算法性能变化)、
可解释性(特征值和规律,是否能够进行解释)
2、决策树定义:类似于流程图的树结构,每个内部结点表示一个属性上的测试,每个分支代表一个属性输出,每个叶结点代表类或类分布。最顶层:根结点。
3、熵entropy
香农提出“信息熵”:
一条信息的信息量大小和它的不确定性有直接的关系——》信息量的度量等于不确定性的多少
每一个发生的概率 P(X)
变量的不确定性越大,熵也就越大。
4、 决策树归纳算法 ID3
1970-1980 J.Ross. Quinlan
选择数据判断节点
信息获取量(Information Gain):Gain(A) = Info(D) - info_A(D)
14个实例,no 5个 yes 9ge
年轻人:5个: 3个 no
; 2个 yes
5、贪心算法、自上而下
C4.5 gain ration
CART gini index
6、树剪枝叶(避免过拟合 overfitting)
先剪枝
后剪枝
7、优缺点:
优点:直观、便于理解、小规模数据集有效
缺点:处理连续变量不好
类别较多时,错误增加比较快。