零基础入门数据挖掘-Task4 建模调参

本文深入解析了线性回归、决策树、GBDT等关键模型,涵盖模型原理、特征选择、性能验证及调参技巧,适合机器学习初学者及进阶者阅读。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、介绍

1、线性回归模型:

线性回归对于特征的要求

处理长尾分布

理解线性回归模型

2、模型性能验证:

评价函数与目标函数

交叉验证方法

针对事件序列问题的验证

绘制学习率曲线

绘制验证曲线

3、嵌入式特征选择:

Lasso回归

Ridge回归

决策树

4、模型对比

常用线性模型

常用非线性模型

5、模型调参

贪心调参方法

网络调参方法

贝叶斯调参方法

二、相关模型的理解

1、决策树模型

决策树(Tree Nodels)是一种创建树状模型的方法,它使用‘基尼不纯度’(Gini Impurity)或信息增益(Information Gain)等标准对节点进行递归分割,以创建树状模型。决策树看起来像是以树状形式排列的一系列的if-else语句,易于理解,执行速度快。并且,它能够很好地表现多个特征之间的相互作用,适用于多种数据类型。(树状模型中,随机森林性能表现卓越)

数据类型:特征可以连续和离散。在决策树算法中,会对数据特征不断判断,根据反馈逐步对数据进行分类。在决策树种,对各个节点提出问题,并根据反馈的回答创建子节点,进而实现数据分类的目的。不纯度被用作评估数据分离程度的标准,将一个节点数据划分为2个子节点时,最好的问题判断能够使子节点的不纯度降至最低。节点中含有的分类判断越多,不纯度越高。

因变量分类时是离散,回归时是连续。

2、GBDT模型

梯度提升树模型(GBDT)是数据挖掘中常见的算法。它是一个集成模型,可以看做是很多个基础模型的线性叠加,其中基模型是CART回归树。

CART回归树是一个决策树模型,与ID3、C4.5相比,它的主要特征是,二分树,每个节点特征取值为“是”、“不是”。

这样,决策树递归划分每个特征,并且在输入控空间的每个划分单元中确定唯一的输出。

---------------------------------------------------------------------------------------------------

参考1:https://blog.youkuaiyun.com/RH_Wang/article/details/81703151

参考2:https://zhuanlan.zhihu.com/p/45145899

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值