【数据分析】评估清理数据实战【淘宝母婴购物数据集】

最新推荐文章于 2025-03-08 15:31:02 发布

原创

最新推荐文章于 2025-03-08 15:31:02 发布 · 1.5k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #数据挖掘 #机器学习 #人工智能 #课程设计

在这里插入图片描述

概述

Ali_Mum_Baby 是一个数据集，其中包含 900 多万条儿童信息（生日和性别），这些信息由消费者提供，他们分享这些信息是为了获得更好的推荐或搜索结果。

数据说明

它包含消费者在淘宝或天猫上提供的 9,000,000 多个儿童的生日和性别。

列名	描述
user_id	用户ID (Bigint)。
birthday	儿童生日（例如：20130423）。
gender	儿童性别（“0” 表示女性，“1” 表示男性，“2” 表示未知）。

Tianchi_mum_baby_trade_history

本表包含淘宝会员的历史交易信息。

列名	描述
item_id	商品ID (Bigint)。
user_id	用户ID (Bigint)。
cat_id	类别ID (Bigint)。
cat1	根类别ID (Bigint)。
property	相应商品的属性 (String)。
buy_mount	购买数量 (Bigint)。
day	时间戳。

典型研究课题

根据父母的购买行为预测子女的年龄
根据用户子女的信息（年龄、性别等）预测用户会购买何种商品。

具体步骤

**数据准备：**创建一个单独的文件夹来存放数据集和Notebook，保持文件结构的整洁。
数据读取：
- 使用 pandas 库的 read_csv 函数读取CSV文件并存储在变量 original_data 中。
- 使用 head() 函数预览数据的前几行。
```
import pandas as pd

original_data = pd.read_csv('data/(sample)sam_tianchi_mum_baby_trade_history.csv')

original_data.head()
```

数据评估：

使用 info() 方法了解数据的基本信息，包括各列的非空值数量和数据类型。

original_data.info()

## print
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29971 entries, 0 to 29970
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     29971 non-null  int64 
 1   auction_id  29971 non-null  int64 
 2   cat_id      29971 non-null  int64 
 3   cat1        29971 non-null  int64 
 4   property    29827 non-null  object
 5   buy_mount   29971 non-null  int64 
 6   day         29971 non-null  int64 
dtypes: int64(6), object(1)
memory usage: 1.6+ MB