决策树家族：DecisionTreeClassifier 与 DecisionTreeRegressor 全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/qiutesting/article/details/148611546

宝子们👋，今天咱们来深入聊聊 scikit-learn 中两个超实用的决策树模型——DecisionTreeClassifier 和 DecisionTreeRegressor。无论你是机器学习小白，还是想进一步巩固知识的大佬，这篇文章都能让你收获满满😎。

🤔决策树基础原理

决策树是一种基于树结构进行决策的模型，它就像我们日常生活中的决策流程图🗺️。从根节点开始，根据数据的特征进行一系列的判断，沿着不同的分支向下，最终到达叶子节点，得到决策结果。👇戳！了解更多

决策树的构建过程主要是通过选择最优的特征进行节点划分，使得划分后的子节点尽可能“纯净”，也就是同一类别的样本尽可能多（分类问题）或者样本的取值尽可能接近（回归问题）。常用的划分标准有信息增益、信息增益比（分类问题）和均方误差（回归问题）等。

🎯DecisionTreeClassifier：分类决策树——追求纯度最大化

原理

DecisionTreeClassifier 用于解决分类问题。它通过递归地选择最优特征对数据集进行划分，使得每个子节点中的样本尽可能属于同一类别。在划分过程中，会计算每个特征的信息增益等信息，选择信息增益最大的特征作为划分依据。

分类树采用不纯度指标评估分裂质量：

基尼不纯度（Gini Index）：随机抽样时类别不一致的概率
Gini = 1 - Σ(p_i²) （p_i为第i类样本比例）
信息增益（Information Gain）：分裂前后信息熵的减少量
Gain = H(parent) - [weighted avg × H(children)]
其中熵 H = -Σ(p_i × log₂(p_i))

优缺点

优点：
- 模型简单直观，易于理解和解释😃。
- 能够处理多分类问题。
- 对数据的预处理要求较低，不需要进行标准化等操作。
缺点：
- 容易过拟合，尤其是在数据量较小或者树的深度较大时😫。
- 对数据中的噪声比较敏感。

用途

适用于离散标签预测场景：
医疗诊断（健康/患病）
垃圾邮件识别（垃圾/正常）
鸢尾花品种分类（Setosa/Versicolor/Virginica）
客户流失预测（流失/留存）

示例代码：鸢尾花分类

# 导入必要库
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)

# 创建分类树模型（基尼系数，限制深度）
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)
clf.fit(X_train, y_train)

# 评估模型
train_acc = clf.score(X_train, y_train)
test_acc = clf.score(X_test, y_test)
print(f"训练集准确率: {train_acc:.2%}")  # 通常输出约98.21%
print(f"测试集准确率: {test_acc:.2%}")   # 通常输出约97.37%

# 可视化决策树
plt.figure(figsize=(15, 10))
plot_tree(clf, 
          feature_names=iris.feature_names, 
          class_names=iris.target_names,
          filled=True, rounded=True)
plt.savefig('classification_tree.png', dpi=300)
plt.show()

# 特征重要性分析
import pandas as pd
feat_importances = pd.Series(clf.feature_importances_, index=iris.feature_names)
feat_importances.sort_values().plot(kind='barh')
plt.title('特征重要性排序')
plt.show()

📈DecisionTreeRegressor：回归决策树——最小化预测误差

原理

DecisionTreeRegressor 用于解决回归问题。它同样通过递归地选择最优特征对数据集进行划分，但划分标准是均方误差。在每个节点上，选择使得划分后子节点的均方误差之和最小的特征进行划分。最终，叶子节点的值为该节点中所有样本目标值的平均值。

回归树采用误差指标评估分裂质量：

均方误差（MSE）：预测值与实际值的平方偏差
MSE = (1/n)Σ(y_i - ŷ)² （叶节点用均值ŷ预测）
平均绝对误差（MAE）：预测值与实际值的绝对偏差
MAE = (1/n)Σ|y_i - ŷ| （叶节点用中位数ŷ预测）

优缺点

优点：
- 能够处理非线性关系的数据😎。
- 模型的可解释性较强，可以通过决策树的结构了解特征的贡献。
缺点：
- 同样容易过拟合😫。
- 对数据中的异常值比较敏感。

用途

适用于连续数值预测场景：

房价预测
销售额趋势分析
股票价格波动预测
能源消耗量估计

示例代码：房价回归预测

# 导入必要库
from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import numpy as np

# 生成回归数据集
X, y = make_regression(
    n_samples=200, n_features=1, 
    noise=20, random_state=42
)

# 添加非线性变换使关系更复杂
y = y + 10 * np.sin(X[:, 0] * np.pi)  # 添加周期性波动

# 创建回归树模型（限制深度防止过拟合）
reg = DecisionTreeRegressor(
    criterion='squared_error',
    max_depth=3,
    min_samples_split=15,
    random_state=42
)
reg.fit(X, y)

# 预测并评估
y_pred = reg.predict(X)
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)
print(f"均方误差(MSE): {mse:.2f}")
print(f"决定系数(R²): {r2:.2f}")

# 可视化拟合效果
plt.figure(figsize=(10, 6))
plt.scatter(X, y, alpha=0.6, label='真实值')
plt.plot(np.sort(X, axis=0), 
         reg.predict(np.sort(X, axis=0)), 
         'r-', lw=3, label='决策树预测')
plt.xlabel('特征值')
plt.ylabel('目标值')
plt.title('回归树拟合效果 (深度=3)')
plt.legend()
plt.grid(True)
plt.savefig('regression_tree_fit.png', dpi=300)
plt.show()

📊主要参数对比

参数	DecisionTreeClassifier	DecisionTreeRegressor	默认值	推荐调整范围
`criterion`	划分标准，可选 'gini'（基尼系数）或 'entropy'（信息增益）	划分标准，可选 'squared_error'（均方误差）、'friedman_mse' 或 'absolute_error'
`max_depth`	树的最大深度，用于防止过拟合	树的最大深度，用于防止过拟合	None	3-10
`min_samples_split`	节点划分所需的最小样本数	节点划分所需的最小样本数	2	2-20
`min_samples_leaf`	叶子节点所需的最小样本数	叶子节点所需的最小样本数	1	1-10
`max_features`	寻找最优划分时考虑的特征数量	寻找最优划分时考虑的特征数量	None	"sqrt"
`random_state`	随机种子，保证实验的可重复性	随机种子，保证实验的可重复性	None	任意整数

📊特有参数对比

参数	DecisionTreeClassifier	DecisionTreeRegressor
`criterion`	"gini"（基尼系数）或"entropy"（信息增益）	"squared_error"（MSE）或"absolute_error"（MAE）
`class_weight`	调整类别权重（处理不平衡数据）	不存在（回归问题无类别概念）
`splitter`	"best"（全局最优）或"random"（局部最优）	同左

⚖️ 优缺点分析与使用建议

1. 决策树通用优点

解释性强：树结构可视化，决策过程透明（白盒模型）
预处理简单：无需特征缩放，处理缺失值灵活
多数据类型支持：同时处理数值和类别特征
计算效率高：预测阶段速度极快（O(树深度)）

2. 分类树 vs 回归树特性对比

特性	DecisionTreeClassifier	DecisionTreeRegressor
输出类型	离散类别/概率	连续数值
评价指标	准确率、F1、AUC等	MSE、MAE、R²等
过拟合倾向	高（尤其类别不平衡时）	高（尤其噪声多时）
适用数据特征	类别边界清晰的数据	非线性、异方差数据
主要挑战	类别不平衡敏感	对异常值敏感

3. 共同缺点

高方差模型：小数据变化可能导致完全不同的树结构
过拟合风险：不加约束会生成完美拟合训练数据的复杂树
不稳定性：对训练数据微小变化敏感（可通过集成方法缓解）
外推能力差：难以预测超出训练数据范围的值（尤其回归树）

4. 使用决策树的实用建议

始终进行剪枝：通过max_depth、min_samples_leaf等参数控制复杂度
回归树优先选MAE：当数据存在异常值时，criterion='absolute_error'更鲁棒
分类树处理不平衡数据：设置class_weight='balanced'避免偏向多数类
特征重要性筛选：利用.feature_importances_属性进行特征选择
集成方法提升性能：单棵树不稳定，可组合成随机森林或梯度提升树

🎉总结

DecisionTreeClassifier 和 DecisionTreeRegressor 是 scikit-learn 中非常实用的决策树模型，分别用于分类和回归问题。它们具有简单直观、易于理解等优点，但也容易过拟合。通过合理设置参数，我们可以有效地控制模型的复杂度，提高模型的泛化能力。

场景对比速查表

问题类型	适用模型	典型案例	评价指标
离散标签	DecisionTreeClassifier	鸢尾花分类	准确率、F1-score
连续数值	DecisionTreeRegressor	波士顿房价预测	MSE、R²
概率估计	DecisionTreeClassifier	客户购买概率预测	ROC-AUC、对数损失
多输出回归	DecisionTreeRegressor	同时预测房价和租金	多维度MSE