
机器学习算法俱乐部
本专栏主要介绍一些和机器学习相关的比赛,不定时的推荐一些国内外最新的和机器学习相关的比赛,以及对之前的比较经典比赛算法的分析
YYLin-AI
这个作者很懒,什么都没留下…
展开
-
2019移动广告反欺诈算法挑战赛之数据清洗
原始数据集的各个属性:1: sid每条记录的索引2: label, 训练的标签3: pkgname,一个包名代表一个应用,包名必须唯一,4: ver, app版本号,5: 对外广告位ID,应该是投放广告的位置6: 对外媒体ID, 通过什么方式传播的广告7: apptype, app的类别8:请求达到服务时间, 什么时候请点击了该广告9: ip, city...原创 2019-08-03 14:52:28 · 2284 阅读 · 2 评论 -
2019移动广告反欺诈算法挑战赛baseline
前言:分享这个baseline之前,首先先感谢一下我的好朋友油菜花一朵给予的一些帮助。然后呢介绍一下最近比赛中碰到的几个问题,以及解释。如果有可能的话,明天分享一个94.47左右的baseline吧,初赛之前设置为粉丝可见,初赛后在设置所有人可见吧。本来想分享47的baseline的,但是后来发现版本找不到了。就把自己的想法融合了一下,也不知道多少分。比赛名次不重要学到东西才重要。第...原创 2019-08-18 20:57:33 · 10270 阅读 · 44 评论 -
2019移动广告反欺诈算法挑战赛之初始数据分析
前言:最近参加的科大讯飞的2019移动广告反欺诈算法挑战赛,但是白天一直在忙着写论文,所以一直是跑跑别人的公开的baseline,调调参数一类的,现在是94.43左右,有需要的可以和我说一下,免费奉献。但是感觉成长不是很大,所以就学学kaggle上的一个大佬分析数据的方式很有意思,就拿过来学学。比猫画虎而已,肯定有些不对的。程序是用jupyter写的,但是优快云不是很支持jupyter,所以...原创 2019-07-23 00:42:19 · 3974 阅读 · 35 评论 -
数据挖掘比赛中几种常见的融合模型方案
前言:数据挖掘相关的比赛中,几乎每个大佬都会谈到融合模型,但是具体模型的实现方式都不会在最后的代码中公布。okay本节介绍一下数据挖掘中的kaggle上一个大佬整理的融合模型的方案,以及代码实现。因为接下来要花好好的写论文了,在这里我先奉上相关的链接,等我论文结束了,再分享一下我的理解。融合模型的原理:https://mlwave.com/kaggle-ensembling-gu...翻译 2019-07-07 16:52:40 · 1956 阅读 · 1 评论 -
2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索 轻松上80
前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集,以及构如何构造训练的标签,具体链接见下文,在我们构造好训练集之后,我们开始使用XGBOOST模型训练数据集,训练方法分为两个版本,第一个版本是简单版本,训练集的属性列中只包含取唯一值的数据,第二个版本是加上取多值的属性列。参考的代码链接是bryan大佬18年腾讯算法大赛公布的baseline。第一部分: 如何清洗广告数...原创 2019-05-06 07:29:54 · 2970 阅读 · 14 评论 -
2019腾讯广告算法大赛之整理测试数据集以及构造训练集
在重构训练样本之前我们首先需要对测试集中样本进行整理,因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式:除了人群定向这一列属性需要根据关键字进行分裂之外,对于其他属性我没有做任何修改,Okay!!!对于人群定向的修改可以分成两种情况,第一种: 当该条记录中的关键字是(属性列名: 具体值)对于出现的属性列进行保存,没出现的属性列直接设置成-1第二种:...原创 2019-05-05 15:01:05 · 4247 阅读 · 13 评论 -
2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签
首先是对清洗曝光广告日志中的脏数据进行清洗,脏数据主要包括三种情况,第一: 该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中,因为不存的话则该条数据无法构造训练集。第二: 广告请求时间不合理,也即是出现二月三十号的这种情况第三: 如果该条广告操作数据的取值不合理,例如(广告行业ID中出现多值,或者出现缺失数据)最后在保存广告操作数据集时,我首先是按照天进行保存的,然后在...原创 2019-05-05 10:47:53 · 2504 阅读 · 7 评论 -
2019腾讯广告算法大赛之清洗广告数据集和用户数据集
研一下半学期参加的比赛,失败原因如下:第一,pandas几乎是从零开始,对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间,但是使用python的判断语句会很慢,而且可能做不出来。okay 2019/06/05已学习第二,因为赛题中需要自己构造训练数据和标签,对题目理解的不是很好,导致构造数据集的目标一直再修改,第三,比赛之前虽然实现了和题目相关代码,以及可...原创 2019-05-04 16:51:44 · 5761 阅读 · 23 评论 -
2019移动广告反欺诈算法挑战赛之一些奇妙的idea
首先简单介绍一下自己的几种写好代码但是还没有跑的方案,然后呢分享一下其他几个人的想法,看完感觉不错的话点个赞呗,哈哈哈哈哈哈思路一: 处理长尾对于类别特征处理一下长尾特征(也即是把make model ver这些特征中仅仅出现次数少于20次的数据归为一类),因为catboost对于类别特征是自动暴力找组合特征,默认的时候最多是对四个特征进行组合的,具体可参考catboost官方文档...原创 2019-09-16 10:31:17 · 2336 阅读 · 7 评论