
研究生参加的相关比赛
YYLin-AI
这个作者很懒,什么都没留下…
展开
-
CCF乘用车细分市场销量预测之ARIMA模型
1: 什么是ARIMA模型介绍ARIMA之前,我们首先介绍一下时间序列回归建模和一般回归建模的区别。想象一下我们预测某个人是否会还对应的贷款,即使我们拥有每个用户之前的贷款时间,但是这个时间仅仅表示用户申请贷款的时间,不同用户是否会还贷款和他们申请的时间关系不会很大(经济大萧条除外),显然此类问题即使一个回归问题。在想象一下我们预测某种车型在某省接来四个月的销量,根据我们的常识判断,前几个月的...原创 2019-11-19 11:53:37 · 2472 阅读 · 3 评论 -
2019移动广告反欺诈算法挑战赛之一些奇妙的idea
首先简单介绍一下自己的几种写好代码但是还没有跑的方案,然后呢分享一下其他几个人的想法,看完感觉不错的话点个赞呗,哈哈哈哈哈哈思路一: 处理长尾对于类别特征处理一下长尾特征(也即是把make model ver这些特征中仅仅出现次数少于20次的数据归为一类),因为catboost对于类别特征是自动暴力找组合特征,默认的时候最多是对四个特征进行组合的,具体可参考catboost官方文档...原创 2019-09-16 10:31:17 · 2336 阅读 · 7 评论 -
“添翼杯”人工智能创新应用大赛垃圾分类之模型部分
前言:关于这个比赛的介绍可以参考之前一篇文章,本节主要介绍的是模型部分。因为比赛比较冲忙只能测试InceptionResNetV2和DenseNet201的效果。比赛有点遗憾的是没有把所有的单独模型都尝试一边,比较一下效果,第二使用融合模型的时候效果不好,但是没有时间检查,第三没有尝试使用lgb或者catboost对得到的图像特征进行分类。方案一: 使用InceptionResNet...原创 2019-08-14 23:39:18 · 1113 阅读 · 0 评论 -
“添翼杯”人工智能创新应用大赛之垃圾分类
前言:前一段时间参加了一个关于“添翼杯”人工智能创新应用大赛,题目要求是给你一张图像要你预测这个张图像属于可回收垃圾的概率,本质也就是一个图像二分类问题。简单记录一下比赛之中的经验吧。首先选择这个赛题是因为前一段时间总结了一下几个经典的图像识别网络,所以打算理论和实战结合看看各个模型在实际比赛中的效果。比赛成不成功对于我而言没有啥意义的,就是玩玩而已。首先展示一下比赛数据集中的训练集...原创 2019-08-14 23:21:42 · 992 阅读 · 1 评论 -
2019移动广告反欺诈算法挑战赛之初始数据分析
前言:最近参加的科大讯飞的2019移动广告反欺诈算法挑战赛,但是白天一直在忙着写论文,所以一直是跑跑别人的公开的baseline,调调参数一类的,现在是94.43左右,有需要的可以和我说一下,免费奉献。但是感觉成长不是很大,所以就学学kaggle上的一个大佬分析数据的方式很有意思,就拿过来学学。比猫画虎而已,肯定有些不对的。程序是用jupyter写的,但是优快云不是很支持jupyter,所以...原创 2019-07-23 00:42:19 · 3974 阅读 · 35 评论 -
2019移动广告反欺诈算法挑战赛之数据特点
总结一下发现的数据特点:1: 所有的华为手机的ppi值都为0原创 2019-08-04 15:18:58 · 874 阅读 · 1 评论 -
2019移动广告反欺诈算法挑战赛baseline
前言:分享这个baseline之前,首先先感谢一下我的好朋友油菜花一朵给予的一些帮助。然后呢介绍一下最近比赛中碰到的几个问题,以及解释。如果有可能的话,明天分享一个94.47左右的baseline吧,初赛之前设置为粉丝可见,初赛后在设置所有人可见吧。本来想分享47的baseline的,但是后来发现版本找不到了。就把自己的想法融合了一下,也不知道多少分。比赛名次不重要学到东西才重要。第...原创 2019-08-18 20:57:33 · 10270 阅读 · 44 评论 -
2019移动广告反欺诈算法挑战赛之数据清洗
原始数据集的各个属性:1: sid每条记录的索引2: label, 训练的标签3: pkgname,一个包名代表一个应用,包名必须唯一,4: ver, app版本号,5: 对外广告位ID,应该是投放广告的位置6: 对外媒体ID, 通过什么方式传播的广告7: apptype, app的类别8:请求达到服务时间, 什么时候请点击了该广告9: ip, city...原创 2019-08-03 14:52:28 · 2284 阅读 · 2 评论 -
数据挖掘比赛中几种常见的融合模型方案
前言:数据挖掘相关的比赛中,几乎每个大佬都会谈到融合模型,但是具体模型的实现方式都不会在最后的代码中公布。okay本节介绍一下数据挖掘中的kaggle上一个大佬整理的融合模型的方案,以及代码实现。因为接下来要花好好的写论文了,在这里我先奉上相关的链接,等我论文结束了,再分享一下我的理解。融合模型的原理:https://mlwave.com/kaggle-ensembling-gu...翻译 2019-07-07 16:52:40 · 1956 阅读 · 1 评论 -
2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索 轻松上80
前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集,以及构如何构造训练的标签,具体链接见下文,在我们构造好训练集之后,我们开始使用XGBOOST模型训练数据集,训练方法分为两个版本,第一个版本是简单版本,训练集的属性列中只包含取唯一值的数据,第二个版本是加上取多值的属性列。参考的代码链接是bryan大佬18年腾讯算法大赛公布的baseline。第一部分: 如何清洗广告数...原创 2019-05-06 07:29:54 · 2970 阅读 · 14 评论 -
2019腾讯广告算法大赛之整理测试数据集以及构造训练集
在重构训练样本之前我们首先需要对测试集中样本进行整理,因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式:除了人群定向这一列属性需要根据关键字进行分裂之外,对于其他属性我没有做任何修改,Okay!!!对于人群定向的修改可以分成两种情况,第一种: 当该条记录中的关键字是(属性列名: 具体值)对于出现的属性列进行保存,没出现的属性列直接设置成-1第二种:...原创 2019-05-05 15:01:05 · 4247 阅读 · 13 评论 -
2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签
首先是对清洗曝光广告日志中的脏数据进行清洗,脏数据主要包括三种情况,第一: 该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中,因为不存的话则该条数据无法构造训练集。第二: 广告请求时间不合理,也即是出现二月三十号的这种情况第三: 如果该条广告操作数据的取值不合理,例如(广告行业ID中出现多值,或者出现缺失数据)最后在保存广告操作数据集时,我首先是按照天进行保存的,然后在...原创 2019-05-05 10:47:53 · 2504 阅读 · 7 评论 -
2019腾讯广告算法大赛之清洗广告数据集和用户数据集
研一下半学期参加的比赛,失败原因如下:第一,pandas几乎是从零开始,对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间,但是使用python的判断语句会很慢,而且可能做不出来。okay 2019/06/05已学习第二,因为赛题中需要自己构造训练数据和标签,对题目理解的不是很好,导致构造数据集的目标一直再修改,第三,比赛之前虽然实现了和题目相关代码,以及可...原创 2019-05-04 16:51:44 · 5761 阅读 · 23 评论