预测未来销售:赛题解读以及数据下载导入、赛题的理解分析
详细说明:
本节将会赛题的背景资料的了解以及数据文件的分布以及数据的下载以及本地导入,赛题的理解分析通过对构建自己对构建特征来说有一个比较大的作用,针对于数据的解读来说比较重要的一环。
数据的解读包括数据的EDA、数据的可视化,数据的类型、数据的文件分布、数据的特征组合的一些猜测都在这里面会涉及到。
一、赛题的数据
数据的文件以及数据的说明
二、赛题数据的特征表示
三、赛题的评估方式(RMSE)
作业名称(详解):
针对于这个数据集的一些想法,如何把这么多个数据及放到一起,组合成新的数据集,网上搜集这个比赛的背景资料,写成一个报告(报告的截图也行)。
基本上关于该比赛的背景资料很少,几乎也就是Kaggle上的Description。
This challenge serves as final project for the “How to win a data science competition” Coursera course.
In this competition you will work with a challenging time-series dataset consisting of daily sales data, kindly provided by one of the largest Russian software firms - 1C Company.
We are asking you to predict total sales for every product and store in the next month. By solving this competition you will be able to apply and enhance your data science skills.
但我在这篇博文中了解到这些数据比赛使用的数据是由日常销售数据组成的时间序列数据集,该数据集由俄罗斯最大的软件公司之一 - 1C公司提供。该数据集也有这样的特点:
- 它是真实的数据集,训练样本数目庞大但信息量少。
- 不需要做太多的feature engineering。
数据集主要有:商店信息、商品分类信息、商品信息以及销售信息。这就构成一个很正常的日常商店销售场景,需要注意的是数据具体的内容,可能会出现的情况,比如某天销售数据并没有被正确记录出现了错误、字符串出现错误、分类出错等都会对后面的特征工程以及模型搭建产生影响。因此我们需要对数据进行清洗,然后才能对数据继续分析。