
天池
韩立 •
这个作者很懒,什么都没留下…
展开
-
阿里云天池学习赛之恶意程序检测(学习笔记)
注:对训练集和测试集中api种类统计发现不完全重合(有很大交集),因此,删除训练集中独有的三种api信息。并特征选取时采用训练集特征构建测试集的c和d类特征(这样对数据有一定的浪费)c:对api调用tid的次数统计形成特征(采用pd.pivot_table)2:采用的算法:LGB(其它算法未怎么尝试,先练练手,熟悉流程)b:对数值字段采用mean,max,min等函数生成数值特征。后续可改进的地方:采用其它算法,采用分层多折交叉验证等。d:对api调用不同tid的次数统计形成特征。原创 2022-10-11 00:40:29 · 1028 阅读 · 1 评论 -
天池O2O赛题最终版本实践
1:对比了模型融合以及单一算法,发现单一算法+调参后的结果更好。2:根据是否满减划分训练集和测试集,做出分开训练的尝试。3:训练集成绩包含在注释中。原创 2022-10-05 18:32:10 · 250 阅读 · 0 评论 -
天池O2O优惠券预测之模型验证代码解析
评价指标及预测方式等 性能评价函数。针对此任务及一些相关背景知识,使用优惠券核销预测的平均AUC(ROC曲线下面积)作为评价标准。即对每个优惠券coupon_id单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。:1:绘制学习曲线对模型拟合程度进行可视化分析。5: coupon平均auc计算为最终评价指标。2:采用不同调参方式:网格搜索和随机搜索。6:选择不同模型进行比较,选择最好的模型。3:绘制验证曲线可视化调参过程。4:对交叉验证方式进行选择。原创 2022-10-04 16:40:48 · 1277 阅读 · 0 评论 -
阿里云天池O2O优惠券预测之模型交叉验证部分Python代码
算法模型比较# 修改pandas默认的现实设置"""按照: 评价指标 验证方式 学习曲线 结果分析,模型选择 模型调参 的步骤对模型进行选择,调优"""#########部分SKLearn 集成的算法########################SKLearn 集成的算法###########################全局参数#############################################目录定义#################################原创 2022-09-29 12:22:52 · 618 阅读 · 0 评论 -
机器学习之交叉验证汇总及其Python代码
总结思想:进行交叉验证目的是为了充分利用训练数据,最大程度利用训练数据,以获得一个较好的模型,防止模型欠拟合或者过拟合。交叉验证是什么?在模型建立中,通常有两个数据集:训练集(train)和测试集(test)。训练集用来训练模型;测试集是完全不参与训练的数据,仅仅用来观测测试效果的数据。一般情况下,训练的结果对于训练集的拟合程度通常还是挺好的,但是在测试集总的表现却可能不行。比如下面的例子:图一的模型是一条线型方程。原创 2022-09-29 12:02:29 · 4804 阅读 · 0 评论 -
020优惠券预测之训练集的预测区间折扣率特征构建
折扣率特征构建是基于预测区间内构建的,因为当下的折扣信息是可以影响到用户是否产生用券消费行为的。因此可以作为特征构建。训练集的预测区间dataset和特征区间(构建历史行为)feature日期如下,以及数据集说明,更多信息在注释中。dataset保留了所有正和负样本,剔除了无关样本(普通消费样本)feature保留了所有正负样本和无关样本。原创 2022-09-20 10:27:09 · 308 阅读 · 0 评论 -
O2O赛题数据集解析1
由图,我们从特征区间提取用户的特征信息(大量交易行为信息,习惯等),这些习惯(特征)在短期内认为是不变的,将这些习惯从过去的时间序列信息中抽离出来,形成特征,通过merge函数合并到预测区间的用户中(因为两个区间有大量用户信息是重复的,所以可以合并),这样就构建了预测区间的用户的特征信息,而预测区间的用户信息中包含了他们是否用券消费的信息,因此合并特征后可以用预测区间的样本去送入算法模型进行训练,获得经过训练的模型。最后测试集经过同样的特征构建,送入到经过训练的模型,得到预测结果,输出概率值。原创 2022-09-20 09:19:28 · 192 阅读 · 0 评论 -
压缩内存的轮子
数据内存压缩(对源码这部分有一定的修改,鉴于内存原因)转载 2022-09-20 03:16:24 · 209 阅读 · 0 评论 -
网格搜索调参机制学习
means=clf.cv_results_['mean_test_score']#clf.cv_results_是一个字典,反应每个参数条件下,进行五折交叉验证的验证集准确率分数。共三个值,所以返回的means也为三个值,其中每个值为进行五折交叉验证的验证集准确率平均分数(也就是说对每个参数都进行一次五折交叉验证,按照这个流程往下)stds=clf.cv_results_['std_test_score']#反应每个参数条件下,进行五折交叉验证的波动情况。...原创 2022-07-18 04:41:35 · 419 阅读 · 0 评论 -
天猫用户复购预测之特征工程构建1
数据内存压缩(对源码这部分有一定的修改,鉴于内存原因)特征构建2词袋模型,词的嵌入以及模型融合的特征构建。原创 2022-07-17 22:48:21 · 1175 阅读 · 0 评论 -
蒸汽预测之模型融合方法原理和代码
代码运行结果原创 2022-07-12 21:59:23 · 597 阅读 · 2 评论 -
蒸汽预测之网格搜索调优模型
首先,导入所要的库加载数据合并test train删除 train 和test 数据分布差异大的特征变量 数据归一化,标准化 对特征变量进行Box-Cox变换,使其满足正态性 Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换, 用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。 Box-Cox变换的主要特点是引入一个参数,通原创 2022-07-11 17:46:19 · 464 阅读 · 2 评论