【sklearn第十五讲】决策树之回归篇

最新推荐文章于 2025-04-02 09:00:00 发布

原创

最新推荐文章于 2025-04-02 09:00:00 发布 · 2.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文主要探讨了使用sklearn库中的决策树进行回归问题的处理，详细介绍了决策树的复杂度、实际使用建议以及算法原理。强调了在处理高维数据时防止过拟合的方法，并提供了控制树结构的参数调整策略。同时，文章对比了不同决策树算法如ID3、C4.5和CART，以及回归问题中的分类原则和回归原则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

回归

使用类DecisionTreeRegressor, 决策树可以应用于回归问题。fit方法取输入数组X, y, 这里的y取浮点值而不是分类的整值。

from sklearn import tree
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)
clf.predict([[1, 1]])

复杂度

通常，构建一棵平衡的二值树的运行时间代价是 $O(n_{samples}n_{features}\log n_{samples})$ , 查询时间是 $O(\log n_{samples})$ . 尽管建树算法试图产生平衡的树，但结果树并不总是平衡的。假设子树维持大致的平衡，在每一个节点的代价包括搜遍 $O(n_{features})$ 到找到提供最大熵减少量的特征。在每个节点的代价 $O(n_{features}n_{samples}\log n_{samples})$ , 这样，加和所有节点的代价得到整棵树的总的代价是 $O(n_{features}n_{samples}^2\log n_{samples})$ .

Scikit-learn提供了更加有效的决策树构建执行。一个naive执行是，重新计算类标签直方图（分类问题），或者沿着一个给定的特征，在每个新分割点的均值（回归问题）。在所有相关的样本上预先排序特征，保持一个运行标签计数，将减少每个节点的复杂度到 $O(n_{features}\log n_{samples})$ , 这样，整个代价是 $O(n_{samples}n_{features}\log n_{samples})$ . 这是一个基于所有树算法的选项。

实际使用提示

对于包括大量特征的数据，决策树容易过度拟合数据。得到样本与特征的比率是重要的，因为高维空间、小样本的树很容易是过度拟合的。
在建树前可以考虑作特征降维（PCA, ICA, 特征选择）。
使用export函数可视化树，使用参数max_depth=3作为一个初始的树深度，对树拟合数据的程度有一个初步的感觉，然后再增加树深。使用max_depth控制树的规模，避免过度拟合。
使用min_samples_split or min_sam