决策树

最新推荐文章于 2021-04-03 05:02:56 发布

原创最新推荐文章于 2021-04-03 05:02:56 发布 · 757 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

决策树

Regression Trees

数据： $(x_i,y_i) i=1,2...,N;x_i=(x_{i1},x_{i2},..,x_{ip})$

决策树算法需要决定划分特征和划分点,以及树该有的形状

假设：将数据划分为 $R_1,R_2,...,R_M$ ,为输出变量建模, $c_m是个常量$ ：

f (x) = \sum m = 1 M c m I (x \in R m) (1)

$f(x) = \sum^M_{m=1} c_m I(x \in R_m) \tag{1}$

最小化平方差和： $c_m$ 的值是该区域的 $y$ 值得平均

c^m = a v e (y i | x i \in R m)

$\hat c_m = ave(y_i | x_i \in R_m)$

树的大小是一个tuning parameter,用于控制模型的复杂度

代价：

$Q m (T) = 1 N m \sum x i \in R m (y i - c^m) 2$ $Q_m(T) = \frac {1} {N_m} \sum_{x_i \in R_m} (y_i - \hat c_m)^2$

复杂度代价标准：

C α (T) = \sum m = 1 | T | N m Q m (T) + α | T |

$C_\alpha(T) = \sum^{|T|}_{m=1}{N_m Q_m(T)} + \alpha |T|$

$\alpha$ 权衡着树的大小和数据的拟合程度，大的 $\alpha$ 产生小的树

Classification Trees

与回归不同的在于代价函数的选择和剪枝的方法
$p^m k = 1 N m \sum x i \in R m I (y i = k)$ $\hat p_{mk} = \frac {1}{N_m} \sum_{x_i \in R_m} I(y_i = k)$
表示m区域中k类数据所占据的比例

集中常见的测量 $Q_m(T)$ 的node impurity的方法

误分类率：
$1 N m \sum x i \in R m I (y i \neq k (m) = 1 - p^m k (m)$ $\frac {1}{N_m} \sum_{x_i \in R_m} I(y_i\neq k(m) = 1-\hat p_{mk(m)}$
基尼系数： $\sum k \neq k' p^m k p^m k' = \sum k = 1 K p^m k (1 - p^m k)$ $\sum_{k \neq k' {\hat p_{mk} \hat p_{mk'} }} = \sum^K_{k=1} \hat p_{mk}(1-\hat p_{mk})$
cross-entropy $- \sum k = 1 K p^m k l o g p^m k$ $-\sum^K_{k=1} \hat p_{mk} log \hat p_{mk}$

对于二元分类而言，如果p是第二个类的比例，三种measures相当于
$1-max(p,1-p);2p(1-p);-p log p-(1-p)log(1-p)$

决策树的缺点：不稳定，high variance,很小的数据变化能够改变整个划分；缺乏smoothness

邮件分类的例子

Table	Predicted
True	email	spam
email	57.3%	4.0%
spam	5.3%	33.4%

Sensitivity: $= 100 \times \frac{33.4} {33.4+5.3} = 86.3\%$
Specificity : $=100 \times \frac{57.3}{57.3+4.0} = 93.4\%$

Bagging,Random Forests,Boosting

bagging(Bootstrap aggregation):a general-purpose procedure for reducing the variance of a statistical learning method

减少variance的方法：
- 从总体中取出更多的样本，分别对不同的样本建模，取平均作为预测的结果
- 从总体中获取无限的样本是不实际的，因此利用从单个训练样本中反复取样

f^b a g (x) = 1 B \sum b = 1 B f^* b (x)

$\hat f_{bag}(x) = \frac{1}{B}\sum^B_{b=1}\hat f^{*b}(x)$
out-of-bag(OBB):利用取样外的数据进行测试计算error

random forests:对特征和样本都同时取样

boosting：特点是，树是顺序生成的

Boosting for Regression Trees
1. 设置 $\hat f(x) =0$ 和 $r_i = y_i$
2. For $b = 1,2,...,B,$ :
拟合 $\hat f^b$ ,with d splits to the training data(X,r)
更新 $\hat f$ :

$f^(x) \leftarrow f^(x) + λ f^b (x)$ $\hat f(x) \leftarrow \hat f(x) + \lambda \hat f^b(x)$
更新residuals,
$r i \leftarrow r i - λ f^b (x)$ $r_i \leftarrow r_i - \lambda \hat f^b(x)$
3.输出
$f^(x) = \sum b = 1 B f^b (x)$ $\hat f(x) = \sum^B_{b=1}\hat f^b(x)$