kaggle 首战拿金牌总结

kaggle 首战拿金牌总结

这篇文章是我对自己第一次参加 kaggle 竞赛并获得金牌(14/4129)的一个总结,谈不上太多经验,涉及到的一些比赛规则和小技巧希望能对刚刚开始打 kaggle 比赛的小伙伴起到一些帮助。

1. 平台简介

kaggle 是全球首屈一指的数据科学、机器学习竞赛和分享平台。很多大公司作为出题方,会将问题和相关数据放在平台上形成一个竞赛,所有的 kaggle 用户都可以参加,获胜的团队或个人既能拿到奖金,又能获得奖牌,对于新手还能收获实战经验。如果能在 kaggle 竞赛中获得一个不错的排名的话,对于自身履历或面试还是有很大帮助的。但由于竞争激烈,想在榜单上拿到一个较高的排名并不容易。

1.1 比赛介绍

kaggle 网站是纯英文的,刚开始的时候可能需要花点时间熟悉一下各板块,之后多数时间我们会待在 Competition 板块下,这个板块包含了所有与这次比赛相关的信息和操作。

Overview

介绍比赛的背景信息、结果的评估指标、比赛时间线和奖金。

刚参加一个比赛,需要花点时间了解这个比赛的领域背景,甚至需要查一些资料或阅读一些文献,这对后面构建特征和选择模型很重要。我看到有很多 winners 分享经验说自己构建的大多数特征都是从商业(领域)层面思考得到的,所以领域的先验知识很重要。

另一需要注意的是比赛的时间线。比赛有一个开始时间,一个组队截止时间和一个最终提交时间。一般一个比赛会持续几个月,最终提交时间就是比赛结束的标志。组队截止时间一般是比赛结束前一周,过了这个时间点就不允许再组队了。留意好这些时间点,对你把握比赛的进度至关重要,尤其是用业余时间打比赛的上班族。很多比赛的数据量比较大,模型跑下来很耗时,如果到最后半个月才开始发力,会发现时间不够用,很多想法都没机会尝试。有大牛分享自己的时间安排是:在比赛刚开始的时候会多花点时间做探索,把pipeline 搭起来,接下来可以少花点时间,平时有什么想法可以直接测试,最后一个月或半个月再做集中冲刺。

Data

介绍数据,提供数据下载。

这个模块需要认值阅读,它介绍数据的产生方式、存储形式、每个字段的含义等。我们很多时候是通过对数据规模或形式的判断来决定要不要参加这个比赛。比如,数据规模很大,你没有内存足够大的服务器可以hold住,可能就没法打这个比赛;再比如,是图像数据,那就得用深度神经网络,如果对这方面不熟或者没有GPU可用,可能也没法打这个比赛。对新手而言,该开始可能更倾向于择一些表格类、数据量适中的数据集。

Kernels
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值