Datawhale
作者:徐韬 ,Datawhale优秀学习者
摘要:对于数据挖掘项目,本文将学习如何建模调参?从简单的模型开始,如何去建立一个模型;如何进行交叉验证;如何调节参数优化等。
建模调参:特征工程也好,数据清洗也罢,都是为最终的模型来服务的,模型的建立和调参决定了最终的结果。模型的选择决定结果的上限, 如何更好的去达到模型上限取决于模型的调参。
数据及背景
https://tianchi.aliyun.com/competition/entrance/231784/information(阿里天池-零基础入门数据挖掘)
理论简介
模型调参基于特征工程所构建的模型上限来优化模型。由于模型的不同和复杂度,模型的参数数量也都不一样。线性模型需要调整正则化的系数,而对于非线性模型,例如随机森林和LGB等模型,需要调节的参数增多。
模型调参的目的就是提升模型的性能度量。对于回归算法,我们要降低模型在未知的数据上的误差;对于分类算法,我们要提高模型在未知数据上的准确率。
知识总结
回归分析
回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型。以便通过观察特定变量(自变量),来预测研究者感兴趣的变量(因变量)
一般形式:
向量形式:
其中 向量代表一条样本