概述
Ali_Mum_Baby 是一个数据集,其中包含 900 多万条儿童信息(生日和性别),这些信息由消费者提供,他们分享这些信息是为了获得更好的推荐或搜索结果。
数据说明
它包含消费者在淘宝或天猫上提供的 9,000,000 多个儿童的生日和性别。
列名 | 描述 |
---|---|
user_id | 用户ID (Bigint)。 |
birthday | 儿童生日(例如:20130423)。 |
gender | 儿童性别(“0” 表示女性,“1” 表示男性,“2” 表示未知)。 |
Tianchi_mum_baby_trade_history
本表包含淘宝会员的历史交易信息。
列名 | 描述 |
---|---|
item_id | 商品ID (Bigint)。 |
user_id | 用户ID (Bigint)。 |
cat_id | 类别ID (Bigint)。 |
cat1 | 根类别ID (Bigint)。 |
property | 相应商品的属性 (String)。 |
buy_mount | 购买数量 (Bigint)。 |
day | 时间戳。 |
典型研究课题
- 根据父母的购买行为预测子女的年龄
- 根据用户子女的信息(年龄、性别等)预测用户会购买何种商品。
具体步骤
-
**数据准备:**创建一个单独的文件夹来存放数据集和Notebook,保持文件结构的整洁。
-
数据读取:
- 使用
pandas
库的read_csv
函数读取CSV文件并存储在变量original_data
中。 - 使用
head()
函数预览数据的前几行。
import pandas as pd original_data = pd.read_csv('data/(sample)sam_tianchi_mum_baby_trade_history.csv') original_data.head()
- 使用
-
数据评估:
-
使用
info()
方法了解数据的基本信息,包括各列的非空值数量和数据类型。original_data.info() ## print <class 'pandas.core.frame.DataFrame'> RangeIndex: 29971 entries, 0 to 29970 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 user_id 29971 non-null int64 1 auction_id 29971 non-null int64 2 cat_id 29971 non-null int64 3 cat1 29971 non-null int64 4 property 29827 non-null object 5 buy_mount 29971 non-null int64 6 day 29971 non-null int64 dtypes: int64(6), object(1) memory usage: 1.6+ MB
-
对数据进行初步的结构和内容评估:
- 整洁度:每列是一个变量,每行是一个观察值。
-