深度之眼比赛实战训练营第08次打卡

这篇博客深入探讨了Kaggle上的一个销售预测比赛,涉及数据的下载、导入与理解分析。内容涵盖数据文件、特征表示和评估指标(RMSE)。博主分享了如何整合数据集,对数据进行EDA和可视化,以及处理可能存在的数据质量问题,为参赛者提供了宝贵的预处理指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

预测未来销售:赛题解读以及数据下载导入、赛题的理解分析

详细说明

本节将会赛题的背景资料的了解以及数据文件的分布以及数据的下载以及本地导入,赛题的理解分析通过对构建自己对构建特征来说有一个比较大的作用,针对于数据的解读来说比较重要的一环。

数据的解读包括数据的EDA、数据的可视化,数据的类型、数据的文件分布、数据的特征组合的一些猜测都在这里面会涉及到。


一、赛题的数据

数据的文件以及数据的说明

File descriptions


二、赛题数据的特征表示

Data fields


三、赛题的评估方式(RMSE)

Evaluation


作业名称(详解):

针对于这个数据集的一些想法,如何把这么多个数据及放到一起,组合成新的数据集,网上搜集这个比赛的背景资料,写成一个报告(报告的截图也行)。


基本上关于该比赛的背景资料很少,几乎也就是Kaggle上的Description。

This challenge serves as final project for the “How to win a data science competition” Coursera course.

In this competition you will work with a challenging time-series dataset consisting of daily sales data, kindly provided by one of the largest Russian software firms - 1C Company.

We are asking you to predict total sales for every product and store in the next month. By solving this competition you will be able to apply and enhance your data science skills.

但我在这篇博文中了解到这些数据比赛使用的数据是由日常销售数据组成的时间序列数据集,该数据集由俄罗斯最大的软件公司之一 - 1C公司提供。该数据集也有这样的特点:

  • 它是真实的数据集,训练样本数目庞大但信息量少。
  • 不需要做太多的feature engineering。

数据集主要有:商店信息、商品分类信息、商品信息以及销售信息。这就构成一个很正常的日常商店销售场景,需要注意的是数据具体的内容,可能会出现的情况,比如某天销售数据并没有被正确记录出现了错误、字符串出现错误、分类出错等都会对后面的特征工程以及模型搭建产生影响。因此我们需要对数据进行清洗,然后才能对数据继续分析。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值