【数据分析】评估清理数据实战【淘宝母婴购物数据集】

在这里插入图片描述

概述

Ali_Mum_Baby 是一个数据集,其中包含 900 多万条儿童信息(生日和性别),这些信息由消费者提供,他们分享这些信息是为了获得更好的推荐或搜索结果。

数据说明

它包含消费者在淘宝或天猫上提供的 9,000,000 多个儿童的生日和性别

列名 描述
user_id 用户ID (Bigint)。
birthday 儿童生日(例如:20130423)。
gender 儿童性别(“0” 表示女性,“1” 表示男性,“2” 表示未知)。

Tianchi_mum_baby_trade_history

本表包含淘宝会员的历史交易信息。

列名 描述
item_id 商品ID (Bigint)。
user_id 用户ID (Bigint)。
cat_id 类别ID (Bigint)。
cat1 根类别ID (Bigint)。
property 相应商品的属性 (String)。
buy_mount 购买数量 (Bigint)。
day 时间戳。

典型研究课题

  • 根据父母的购买行为预测子女的年龄
  • 根据用户子女的信息(年龄、性别等)预测用户会购买何种商品。

具体步骤

  1. **数据准备:**创建一个单独的文件夹来存放数据集和Notebook,保持文件结构的整洁。

    在这里插入图片描述

  2. 数据读取:

    • 使用 pandas 库的 read_csv 函数读取CSV文件并存储在变量 original_data 中。
    • 使用 head() 函数预览数据的前几行。
    import pandas as pd
    
    original_data = pd.read_csv('data/(sample)sam_tianchi_mum_baby_trade_history.csv')
    
    original_data.head()
    

    在这里插入图片描述

  3. 数据评估:

    • 使用 info() 方法了解数据的基本信息,包括各列的非空值数量和数据类型

      original_data.info()
      
      ## print
      <class 'pandas.core.frame.DataFrame'>
      RangeIndex: 29971 entries, 0 to 29970
      Data columns (total 7 columns):
       #   Column      Non-Null Count  Dtype 
      ---  ------      --------------  ----- 
       0   user_id     29971 non-null  int64 
       1   auction_id  29971 non-null  int64 
       2   cat_id      29971 non-null  int64 
       3   cat1        29971 non-null  int64 
       4   property    29827 non-null  object
       5   buy_mount   29971 non-null  int64 
       6   day         29971 non-null  int64 
      dtypes: int64(6), object(1)
      memory usage: 1.6+ MB
      
    • 对数据进行初步的结构和内容评估:

      • 整洁度:每列是一个变量,每行是一个观察值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FOUR_A

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值