本文旨在通过实例介绍在Kaggle网站上参加竞赛并提交预测结果的流程。选择的竞赛也是最简单的手写体数字识别(MNIST)竞赛。
一、Kaggle平台介绍
Kaggle是当前比较流行的,采用众包策略,为科技公司、研究院乃至高校课程提供数据分析与预测模型的竞赛平台。
Kaggle平台设立的宗旨在于:汇聚全世界从事数据分析与预测的专家以及兴趣爱好者的集体智慧,利用公开数据竞赛的方式,为科技公司、研究院所和高校课程中的研发课题,提供有效的解决方案。这一初衷使得问题提出者与解决者获得了双赢。
一方面,许多科技公司、研究院和高校拥有大量的数据分析任务和研发课题。如果仅仅依靠有限的内部研究人员处理和分析;不但耗费大量的时间,而且支付给这些拥有博士学位的研究人员的薪资也是极其高昂的。这也是为什么只有少数实力雄厚的高新科技公司拥有内部的研究院,如Google Research,百度深度学习研究院等等。如果仅仅拿出一小部分奖金(迄今为止,Kaggle平台上最常见的悬赏是850000,大约是一位在美国IT企业工作的普通职位科研人员一个季度的薪水),便可以向全世界的聪明人征集解决方案,那何乐而不为呢?
另一方面,越来越多的有从事数据分析与预测工作意愿的兴趣爱好者,因为难以获得大