
竞赛
Lindsay.Lu丶
- find more, find yourself. -
展开
-
xgboost & lightgbm 调参指南
本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见集成学习,以下内容主要来自xgboost和LightGBM的官方文档。xgboostXgboost参数主要分为三大类:General Parameters(通用参数):设置整体功能Booster Parameters(提升参数):选择你每一步的booster(树or回归)Learning Task Parameters(学习任务参数):指导优化任务的执行General Parameters(通用参数)...原创 2020-09-19 03:54:22 · 2011 阅读 · 0 评论 -
xgboost 训练大数据,内存不够 out of memory
如果要训练(测试)的样本很多,达到上百上千万,单机载入不了内存时,可以采用如下方法:1、生成libsvm文件 将要处理的数据分批(比如一次读10000行/个样本)读入内存,缺失值填充、特征过程等处理完毕之后,使用sklearn.datasets.dump_svmlight_file()将其转为libsvm数据格式保存到磁盘;libsvm格式也是每行一个样本,所以多个文件很容易合并(比如使用linux命令:cat file1>> file2)。2、构造xgb....原创 2020-08-31 12:16:51 · 2302 阅读 · 0 评论 -
【DS】数据平滑处理——log1p()和exmp1()
今天在做题的时候学到了一点有用的东西,所以这里做个记录分享一下,有关数据预处理的两个函数问题——log1p、expm1优点:在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果; 平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样...原创 2020-08-28 12:50:49 · 540 阅读 · 0 评论 -
np.log1p( ) 函数的应用
数据平滑处理 -- log1p( ) 和 exmp1( )1. 数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。2. 平滑问题很容易处理掉,导致模型的结果达不到一定的标准,log1p( )能够避免复值得问题 — 复值指一个自变量对应多个因变量log1p( ) 的使用就像是一个数据压缩到了一个区间,与数据的标准类似。其逆运算就是expm1的函数由于使用的log1p()对数据进行了压缩,最后需要将预测出的平.原创 2020-08-28 12:48:00 · 774 阅读 · 0 评论 -
【面试常备】Sklearn中常用的特征选择方法
作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的...原创 2020-08-18 14:07:59 · 2339 阅读 · 0 评论 -
2019数据科学/人工智能比赛作品解决方案合集
目录1. Structured Data/ Time Series2019 CCF 乘用车细分市场销量预测2019 CCF 离散制造过程中典型工件的质量符合率预测2018 科大讯飞 AI 营销算法大赛2018 IJCAI 阿里妈妈搜索广告转化预测2018 腾讯广告算法大赛2017 腾讯广告算法大赛2018 高校大数据挑战...原创 2020-07-13 23:07:00 · 2965 阅读 · 0 评论