决策树与集成学习:原理、应用与优化
决策树基础
决策树是一种直观且易于解释的机器学习模型,常被称为白盒模型。与之相对,随机森林和神经网络通常被视为黑盒模型,虽然它们能做出很好的预测,但往往难以简单解释预测的原因。
决策树不仅可以进行分类,还能估计一个实例属于特定类别 $k$ 的概率。它通过遍历树找到该实例对应的叶节点,然后返回该节点中类别 $k$ 的训练实例的比例。例如,对于花瓣长 5 厘米、宽 1.5 厘米的花,决策树可能输出以下概率:山鸢尾(Iris setosa)为 0%(0/54),变色鸢尾(Iris versicolor)为 90.7%(49/54),维吉尼亚鸢尾(Iris virginica)为 9.3%(5/54)。如果要求预测类别,它会输出变色鸢尾(类别 1),因为其概率最高。以下是代码示例:
>>> tree_clf.predict_proba([[5, 1.5]])
array([[0., 0.90740741, 0.09259259]])
>>> tree_clf.predict([[5, 1.5]])
array([1])
训练算法:CART
Scikit - Learn 使用分类与回归树(CART)算法来训练决策树。该算法首先使用单个特征 $k$ 和阈值 $t$(例如,“花瓣长度 ≤ 2.45 厘米”)将训练集拆分为两个子集。它会搜索产生最纯子集(按子集大小加权)的 $(k, t)$ 对,其成本函数如下:
[J(k, t_k) = \frac{m_{left}}{m}G_{left} + \frac
超级会员免费看
订阅专栏 解锁全文

1780

被折叠的 条评论
为什么被折叠?



