3.1 决策树的基本思想

本文介绍了决策树的基本思想,包括如何选择最优划分特征。通过计算信息熵来衡量数据集的不确定性,使用信息增益作为选择特征的标准。内容涵盖了ID3、C4.5和CART算法的不同选择标准,以及如何根据特征划分数据集和构建决策树的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实例:销售调查例子(对潜在客户进行分类,给出销售人员指导意见)
销售调查表:
销售调查决策树:
上面仅是从定性的角度对潜在用户的判断,下面加上定量的判断:
 
决策树的 算法框架
  • 决策树的主函数:各种决策树的主函数大同小异,本质上是个递归函数,该函数主要功能是根据某种规则生长出决策树的各个分支节点,并根据终止条件结束算法。
    • 输入需要分类的数据集和类别标签
    • 根据某种分类规则得到最优的划分特征,并创建特征的划分节点——计算最优特征子函数
    • 按照该特征的每个取值划分数据集为若干部分——划分数据集子函数
    • 根据划分子函数的计算结果构建出新的节点,作为树生长出的新分支
    • 检验是否符合递归终止条件
    • 将划分的新节点包含的数据集和类别标签作为输入,递归执行上述步骤
  • 计算最优特征子函数:不同标准导致不同类型的决策树,如ID3的最优特征选择标准是信息增益,C4.5是信息增益率,CART是节点方差的大小等等。算法逻辑上,一般选择最优特征需要遍历整个数据集
随机森林回归算法原理报告 一、引言 在机器学习领域,回归分析是一种重要的技术,用于预测连续型变量的值。随机森林回归(Random Forest Regressor)作为集成学习领域的重要算法,巧妙地借助了 Bootstrap 聚合(Bagging)的力量,将多个决策树组合在一起,从而极大地提升了模型的性能和鲁棒性。它在众多实际应用场景中发挥着关键作用,如金融时序预测、工业设备故障预测等。本报告将详细阐述随机森林回归算法的原理,包括核心概念、数学推导以及相关公式。 二、核心概念 2.1 集成学习与随机森林 集成学习是一种通过组合多个弱学习器来构建一个强学习器的方法,其核心思想是“集思广益”,通过组合多个模型来提高预测的准确性和鲁棒性。随机森林是集成学习的一种具体实现,它通过构建多个决策树来进行回归预测。每棵决策树可以看作是一个独立的“预测专家”,它们各自从不同的角度对数据进行分析和预测。当把这些“专家”的意见综合起来时,就能够减少单个“专家”可能出现的偏差,使得最终的预测结果更加稳定可靠。 2.2 决策树基础 决策树是一种基于树结构进行决策的模型,每个内部节点表示一个特征上的测试,每个分支表示一个测试输出,每个叶节点表示一个类别或值。在回归问题中,决策树的叶节点通常表示一个数值,即预测值。决策树的构建过程是递归地选择最优特征进行划分,直到满足停止条件。常用的决策树算法有 ID3、C4.5 和 CART 等。在随机森林回归中,通常使用 CART 回归树作为基学习器。 三、随机森林回归的核心原理 3.1 Bootstrap 聚合(Bagging) Bootstrap 聚合是随机森林回归的基础。它通过对原始数据集进行有放回抽样的方式,生成 (B) 个子集。每一个子集都可以看作是原始数据集的一个“缩影”,但又包含了原始数据的部分特征和信息。基于这些子集,分别训练一棵决策树。最终的预测结果则是将这 (B) 棵树的预测结果进行平均,公式如下: [ hat{y} = \frac{1}{B} \sum_{b = 1}^{B} f_b(\mathbf{x}) ] 其中,(\hat{y}) 是最终的预测值,(f_b(\mathbf{x})) 是第 (b) 棵决策树对样本 (\mathbf{x}) 的预测值,(B) 是决策树的数量。 从偏差 - 方差分解的角度来看,Bagging 具有显著的方差减少效果,其公式为: [ \text{Var}(\hat{y}) = \frac{\text{Var}(f)}{B} + \rho \sigma^2 ] 在这个公式中,(\rho) 是树间相关系数,(\sigma^2) 是每棵树的方差。随着决策树数量 (B) 的增加,(\frac{\text{Var}(f)}{B}) 这一项会逐渐减小,从而降低了整体的方差。这就好比在一场比赛中,有多个评委打分,当评委数量足够多时,个别评委的偏差对最终平均分的影响就会变小。 3.2 特征随机性 除了 Bootstrap 聚合,特征随机性也是随机森林回归的关键特性。在每棵树进行分裂时,随机森林并不会考虑所有的特征,而是仅从所有特征中选择一个随机子集(通常 (m = \sqrt{p}) 或 (p/3),(p) 为总特征数)。这样做的目的是进一步降低树与树之间的相关性。 假设我们有 10 个特征来预测某个目标变量,在构建第一棵树时,可能随机选择了其中的 3 个特征,如特征 1、特征 4 和特征 7。而在构建第二棵树时,又随机选择了另外 3 个不同的特征,如特征 3、特征 6 和特征 9。这样每棵树关注的特征组合不同,它们之间的相关性就会降低,从而使得整个模型能够学习到更丰富的信息,提高泛化能力。 四、随机森林回归的算法流程 4.1 样本抽取 从原始数据集中有放回地随机抽取多个样本,生成多个子数据集。样本抽取公式为: [ D^{(b)} = { (\mathbf{x}_i, y_i) \mid i \in S_b } ] 其中 (S_b) 是第 (b) 个子数据集的样本索引集合。 4.2 决策树构建 对于每个子数据集,使用决策树算法构建回归树。在每个节点分裂时,随机选择一部分特征,选择最佳特征进行分裂。特征选择公式为: [ \text{Split Feature} = \arg\min_{j \in \text{Random Subset}} \sum_{i = 1}^{m} \left( y_i - \hat{y}_i \right)^2 ] 其中: (j) 是特征索引。 (m) 是当前节点中的样本数。 (y_i) 是第 (i) 个样本的真实值。 (\hat{y}_i) 是根据特征 (j) 进行分裂后的预测值。 4.3 集成预测 所有树训练完成后,对新输入的数据点,分别使用每棵决策树进行预测,然后对所有预测结果进行平均,得到最终的预测值。最终预测公式为: [ \hat{y} = \frac{1}{B} \sum_{b = 1}^{B} \hat{y}^{(b)}(\mathbf{x}) ] 其中: (\hat{y}) 是输入样本 (\mathbf{x}) 的最终预测值。 (B) 是决策树的数量。 (\hat{y}^{(b)}(\mathbf{x})) 是第 (b) 棵树的预测值。 五、随机森林回归的优缺点 5.1 优点 高准确度:随机森林通过结合多棵决策树,显著提升了模型的预测准确度。 抗过拟合:由于引入了随机性,随机森林相比单棵决策树更加抗过拟合,能够更好地泛化到未见的数据。 能够处理高维数据:随机森林在特征维度较高的情况下仍然能够有效工作。 内置评估:随机森林利用袋外(OOB)样本进行无偏误差估计,无需再专门划分验证集,节省了数据。 5.2 缺点 计算复杂度高:由于随机森林需要训练多棵决策树,因此计算成本较高,尤其是在数据量大时。 模型解释性较差:随机森林的集成机制使得模型难以解释,不容易理解每个特征对预测结果的影响。 六、文献支持 [1] Breiman, L. (2001). Random forests. Machine learning, 45(1), 5 - 32. 该文献详细介绍了随机森林算法的原理和应用。 [2] Freund, Y., & Schapire, R. E. (1997). A decision - theoretic generalization of on - line learning and an application to boosting. Journal of computer and system sciences, 55(1), 119 - 139. 虽然主要介绍的是 Adaboost 算法,但对集成学习的思想有一定的阐述。 [3] Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over - sampling technique. Journal of artificial intelligence research, 16, 321 - 357. 虽然与随机森林回归直接相关度不大,但对处理数据不平衡问题有一定的参考价值。 综上所述,随机森林回归算法通过 Bootstrap 聚合和特征随机性,将多个决策树组合在一起,有效降低了模型的方差,提高了模型的泛化能力。在实际应用中,需要根据数据的特点和问题的需求,合理选择模型的参数,以达到最佳的预测效果。显示所有公式
最新发布
07-03
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值