机器学习(三)树模型

最新推荐文章于 2020-04-01 14:07:39 发布

原创最新推荐文章于 2020-04-01 14:07:39 发布 · 376 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #决策树

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文介绍了树模型中的划分选择标准，包括信息增益、信息增益率及基尼系数等概念，并探讨了如何利用这些标准进行特征选择。此外，还讨论了剪枝技术以避免过拟合，并详细阐述了连续值与缺失值处理方法。最后，文章深入介绍了CART二叉树的具体实现。

机器学习(三)树模型

3.1 划分选择
3.1.1 信息增益
熵的定义如下，熵越小，纯度越高

E n t r o p y (D) = - \sum k = 1 | y | p k l o g p k (3.1.1)

$Entropy(D)=-\sum_{k=1}^{|y|}p_klogp_k\tag{3.1.1}$
信息增益定义如下,属性a有v个取值

G a i n (D, a) = = E n t r o p y (D) - H (D | a) E n t r o p y (D) - \sum v = 1 V | D v | | D | E n t r o p y (D v) (3.1.2)

$\begin{align} Gain(D,a)=&Entropy(D)-H(D|a)\notag\\ =&Entropy(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Entropy(D^v)\tag{3.1.2} \end{align}$
信息增益越大，意味着使用属性a进行划分所获得纯度越大，ID3使用信息增益来划分属性
信息增益越容易偏向选择特征值较多的特征

3.1.2 信息增益率

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a ) (3.1.3)

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}\tag{3.1.3}$

I V (a) = - \sum v = 1 V | D v | | D | l o g | D v | | D | (3.1.4)

$IV(a)=-\sum_{v=1}^V\frac{|D^v|}{|D|}log\frac{|D^v|}{|D|}\tag{3.1.4}$
信息增益率对取值较少的特征有偏好信息增益率 C4.5 启发式先找信息增益高于平均的属性，再选择增益率最高的

3.1.3 基尼系数

G i n i = = \sum k = 1 | y | \sum k' \neq k p k p k' 1 - \sum v = 1 | y | p 2 k (3.1.5)

$\begin{align} Gini=&\sum_{k=1}^{|y|}\sum_{k\prime\neq k}p_kp_{k\prime}\notag\\ =&1-\sum_{v=1}^{|y|}p_k^2\tag{3.1.5} \end{align}$
基尼系数直观来说，反映的是从数据集D中抽取两个样本，其类标记不一样的概率，Gini越高数据集纯度越高

G i n i_i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v) (3.1.6)

$Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)\tag{3.1.6}$
选择Gini指数较小的作为划分的标准

3.2 剪枝
预剪枝：
每个结点划分时估计，若不能提升泛化性能则停止分裂将其作为叶节点
降低了过拟合的风险很多特征没有展开，但有些特征在当前的划分不能带来提升泛化性能在之后可能会提升，带来了欠拟合的风险

后剪枝：
自底向上，对非叶结点考察，若将子树替换为叶节点能够带来泛化性能提升则将子树替换为叶节点
相对于预剪枝后剪枝保留了更多的分支，欠拟合风险小泛化性能优于预剪枝
时间花销太大它是树训练完成之后的从低向上的

3.3 连续值与缺失值处理
连续值处理二分法大小排序后划分点取两边的中点
缺失值处理计算属性信息增益率时只考虑无缺失值的样本，然后乘以一定的权重

3.3 CART二叉树
3.3.1 分类问题 Gini index
生成过程：
对个特征 A，对它的所有可能取值 a，将数据集分为 A＝a，和 A!＝a 两个子集，计算集合 D 的基尼指数

G i n i_i n d e x (D, A) = | D A = a | | D | G i n i (D A = a) + | D A \neq a | | D | G i n i (D A \neq a) (3.3.1)

$Gini\_index(D,A)=\frac{|D_{A=a}|}{|D|}Gini(D_{A=a})+\frac{|D_{A\neq a}|}{|D|}Gini(D_{A\neq a})\tag{3.3.1}$
遍历所有特征，计算所有可能的分割点，选择D的基尼指数最小值对应的特征作为特征值与切分点
重复以上过程直至满足停止条件

停止条件：
结点的样本个数小于给定阈值
样本集的基尼系数小于给定阈值
没有更多的特征

3.3.1 回归问题