深度之眼比赛实战(未来销售预测)项目记录——1——赛题分析

本次分享聚焦于竞赛题目解读,涵盖数据下载、导入及初步分析。通过EDA和数据可视化,深入理解数据特征,为构建有效模型奠定基础。作业要求撰写背景资料报告,探索数据集组合方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

任务

学习时长:1/13——1/14
任务名称:赛题解读以及数据下载导入、赛题的理解分析
任务简介:赛题的初步理解分析
详细说明:
本节将会赛题的背景资料的了解以及数据文件的分布以及数据的下载以及本地导入,赛题的理解分析通过对构建自己对构建特征来说有一个比较大的作用,针对于数据的解读来说比较重要的一环。
数据的解读包括数据的EDA、数据的可视化,数据的类型、数据的文件分布、数据的特征组合的一些猜测都在这里面会涉及到。
代码数据下载:
链接:https://pan.baidu.com/s/1PS_iY_vyTWFM5L04UTL2fA
提取码:lryb
作业名称(详解):针对于这个数据集的一些想法,如何把这么多个数据及放到一起,组合成新的数据集,网上搜集这个比赛的背景资料,写成一个报告(报告的截图也行)。
作业提交形式:
打卡内容:PPT截图或手写拍照,打卡提交.(可以只是文字提交,或图片提交,或组合都行)
打卡截止时间:1/14

打卡

1. 赛题

1.1 背景介绍

在这里插入图片描述

1.2 目标描述

在这里插入图片描述

1.3 文件说明

在这里插入图片描述
在这里插入图片描述

2. 数据初步探索

import numpy as np
import pandas as pd 

数据导入

data = pd.read_csv('sales_train.csv')
# data = pd.read_csv('test.csv')
# data = pd.read_csv('items.csv')
# data = pd.read_csv('item_categories.csv')
# data = pd.read_csv('shops.csv')

逐个查看

data.head()

sales_train.csv:

在这里插入图片描述

date_block_num 表示对月份的编码,比如一月用0表示;
item_cnt_day 表示销售数量,而我们要预测的对象就是一个月的它。

test.csv:
在这里插入图片描述
items.csv:

在这里插入图片描述
item_categories.csv:
在这里插入图片描述

shops.csv:

在这里插入图片描述
查看所有的数据后,对数据有了深一层的理解:
特征变量分为两大块:

  • name类:时间、商店、商品三个变量的具体名称
  • ID类:上面变量的编码

最终预测的变量: 按月来预测item_cnt_day

下一步要做的是就是将数据整合起来。

时间序列的读取可以采用 pandas 中的分组和聚合函数:先分导入各CSV 文件,再使用 groupby() 进行分组,agg()进行聚合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值