导入模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
获取数据
df= pd.read_csv( r"./data/kz.csv",sep=',')
数据描述
该数据包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据。
数据说明
- event_time:行为类别
- event_type:行为类别
- product_id :产品编号
- category_id :产品的类别ID
- category_code:产品的类别分类法(代码名称)
- brand:品牌名称
- price:产品价格
- user_id:用户ID
数据信息
df.shape

df.info()

df.head()

数据处理
# 对比每一列数据大小,判断有无缺失值
df.isnull().any()

# 因为数据较大,删除掉缺失数据
df=df.dropna()
# 判断有无重复值
df.duplicated()
# 删除重复值
df=df.drop_duplicates()

df.shape

df.describe()

文章详细描述了如何通过Python库如pandas和numpy对电商数据进行清洗、描述性统计和深入分析,包括用户消费金额、人数、频率、品牌偏好以及用户生命周期等关键指标。重点展示了消费趋势的变化和RFM模型的应用,揭示了用户行为特征和流失情况。
最低0.47元/天 解锁文章
501

被折叠的 条评论
为什么被折叠?



