20、决策树、随机森林与梯度提升回归:原理、应用与实践

决策树、随机森林与梯度提升回归:原理、应用与实践

1. 决策树与随机森林回归的关键概念

1.1 KNN回归的局限性与新方法的需求

以阿富汗和荷兰为例,在预测男女收入比时,阿富汗劳动力参与率和人类发展比率都处于较低水平,但仍难以准确预测其极低的收入比;荷兰劳动力参与率高于中位数,人类发展比率处于中位数,模型预测的收入比略高于中位数,但实际收入比却出人意料地低。

KNN回归在处理难以建模的数据时具有一定优势,无需花费大量时间指定模型,除了一些插补和缩放外,无需进行特征变换或创建交互效应,也无需担心非线性问题。然而,这种方法扩展性较差,对于更工业级别的工作,需要寻找一种兼具KNN优点且能克服其缺点的算法,决策树和随机森林回归便是这样的选择。

1.2 决策树的原理与特点

决策树是一种非常有用的机器学习工具,具有与KNN相似的优点,如非参数、易于解释、能处理广泛的数据类型,同时避免了一些局限性。

决策树基于数据集中特征的值对观测值进行分组,通过一系列二元决策实现,从根节点的初始分割开始,以每个分组的叶子节点结束。沿着从根节点到叶子节点的分支具有相同值或相同值范围的所有观测值,对目标变量具有相同的预测值。当目标变量为数值时,该预测值是该叶子节点上训练观测值的目标变量的平均值。

例如,一个基于每周工作小时数、子女数量、家中其他成年人数量以及是否上学来预测个人夜间睡眠时间的决策树模型。根节点基于每周工作小时数将数据分割为工作小时数大于30和小于等于30的两部分,后续再根据其他特征进一步分割。

决策树算法选择每个级别(从根节点开始)的分割,以最小化平方误差之和。与线性回归优化有相似之处,但决

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值