机器学习中的回归模型与评估方法
1. 决策树模型
1.1 决策树简介
决策树是一种树结构,通过回答一系列问题来预测结果。多数决策树为二叉树,问题只需简单的“是”或“否”回答。例如,根据经验年限预测程序员薪资的决策树,预测有 10 年经验的程序员薪资,只需做出三个“是/否”决策。
1.2 决策树的应用场景
决策树可用于回归和分类问题。在回归问题中,叶节点代表回归值;在分类问题中,叶节点代表类别。与线性回归模型不同,决策树回归模型的输出不是连续的,其输出总是叶节点所分配的值之一,且叶节点数量有限。
1.3 决策树的构建
决策树通过递归分割训练数据来构建。分割算法在添加节点时需做出两个基本决策:一是该节点分割哪一列,二是分割所基于的值。在每次迭代中,目标是选择能最大程度减少分类问题中剩余数据的“杂质”或回归问题中剩余数据的方差的列和分割值。常见的分类杂质度量是基尼系数,回归问题通常使用平方误差或绝对误差的总和。树的构建从根节点开始,递归向下进行,直到树完全展开或外部约束(如最大深度限制)阻止进一步生长。
1.4 Scikit 中的决策树实现
Scikit 提供了 DecisionTreeRegressor 类和 DecisionTreeClassifier 类,实现了著名的 CART 算法来构建二叉树。以下是一个简单的构建决策树回归模型的示例代码:
from sklearn.tree import DecisionTreeRegressor
model
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



