1、什么是决策树?
从根节点开始一步步走到叶子节点,既可以做分类任务,也可以做回归任务。
决策树的组成:
①根节点:第一个选择点
②非叶子节点与分支:中间过程
③叶子节点:最终的决策结果
构建决策树的难点:如何切分特征(选择节点)
选择切分特征的衡量标准——熵
2、决策树特征选择
熵
熵是表示随机变量不确定性的度量(物体内部的混乱程度),在机器学习中,熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大
熵的计算公式:
H ( x ) = − ∑ p i ∗ log p i H(x)=-\displaystyle\sum p_i*\log p_i H(x)=−∑pi∗logpi
i = 1 , 2 , 3 , ⋯ , n i=1,2,3,\cdots,n i=1,2,3,⋯,n
p i p_i pi:随机变量 x x x的第 i i i个可取值的概率,当 p i = 1 p_i=1 pi=1时,熵值为0
例子:
A集合【1,1,1,1,1,1,1,2,2】
B集合【1,2,3,4,5,6,7,8,1】
显然A集合的熵值小于B集合的熵值
不确定性越大,得到的熵值越大:
-
当 p = 0 p=0 p=0或者 p = 1 p=1 p=1时, H ( p ) = 0 H(p)=0 H(p)=0,随机变量完全没有不确定性。
-
当 p = 0.5 p=0.5 p=0.5时, H ( p ) = 1 H(p)=1 H(p)=1,此时随机变量的不确定性最大。
信息增益
信息增益:待分类数据集合的熵与选定某个特征分类后数据集熵的差值
可以用信息增益来衡量使用当前特征对于样本集合D划分效果的好坏,信息增益越大,该特征越适合用于分类。
特征A对训练数据集D的信息增益表示为 g ( D , A ) g(D,A) g(D,A),则有:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=