大数据竞赛心得

分享一年参与数据竞赛的心得,包括从奖金诱惑到问题挑战,结识行业大佬,以及研究生期间平衡竞赛与学业、导师项目的策略。强调竞赛对技能提升、职业发展的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       下面是自己参加竞赛的一点经历和心得,希望对你有所帮助!

       接触竞赛也有一年多了,期间收获最好的成绩应该是第四名,虽然成绩不怎么样,但是真真切切学到很多东西。参加比赛一开始出于奖金的诱惑,奖金动不动就十几百万,甚至更多,现在也出于问题的挑战性和可行性,以及硬件问题。
       好了,先说说参加比赛的优势。大多赛题都来源于我们的生活,或工业中的各种难题,比如手机流量套餐推荐、浏览内容推荐、是否购买某种产品、天气预测,流量预测,部件寿命预测、等太多的问题,当你接触这些问题后,你会发现原来这些问题都是小case了,嗯,这样真的不再担心找不到工作,但要找更高薪的工作,我想应该还要看人品的,哈哈
       这里,除了可以接触各行业的问题外,你还会结识许多大佬,是的,你会发现都是这么几个大佬打比赛(应该有打比赛为业的吧),他们好像垄断的前排位置,哈哈,也不完全垄断,不然我们参加岂不是陪跑咯。其实每个比赛,一个是看实力,一个是看运气成分。向他们学习,抱他们大腿,哈哈,那你收获更大了

       我刚研究生入学,接触竞赛也是机缘巧合,虽然本科就知道天池,但只是望尘莫及。最开始参加的是CCF同时在天池和datafountain发布的店铺定位,期间也参加了ccf的其他赛题,当时我和我另外一个本科同学参加的,他话比较多的时间在店铺单位这题上,最后我们成绩并进不了复赛,值得高兴的是,另外的小超市预测赛题进复赛了,并取得不错的效果,最后高兴的太早,对于小白翻车在所难免。是的,这真的会花时间,但我们收获了一些知识,以及教训。这里我想提的是,如果你导师有项目,建议先做老师项目为主,竞赛有时间可以接触接触,否则可能被老板批评的。其实,有些竞赛有指导教师,如果你导师感兴趣或者研究方向对口,这样其实可以当个项目来做,到时可以写篇paper投了也不是不可能,顺便再捞个证书奖什么的,嗯,确实想法很美好。当然,有些竞赛会把优秀的方案,推送到一些会议,而这里投会议论文应该so easy了

       忘了,我其实是放养的,说白点就是没老师管,想想有时放养其实挺不错的,但其不然。有老师,做或不做老师的项目,老师都会定期发工资的,不像我们只有羡慕的份咯,还有一点,有导师可以报销各种费用啊,没导师只能自己掏咯,区别还是挺大的。
       好像有点涉及研究生生活了,其实我一开始是想写这个来着,应该到毕业之时,我会分享出来。

       写到这吧,有机机会我在分享参加竞赛值得注意的问题,让你们少踩坑,下面我分享几个竞赛网站:
国外的 kaggle 等
国内的 天池,科赛,dc,df等

       最后,提个醒,参加比赛,一个千万别耽误自己的毕业,一个别耽误导师的项目,祝好!2019-07-05
 

AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值