一、数据背景
某平台内电子产品用户消费行为记录
二、数据来源
取前20w行进行分析
三、数据理解
event_time:下单时间
order_id:订单编号
product_id:产品编号
category_id :种类编号
category_code :种类
brand :品牌
price :价格
user_id :用户ID
age :年龄
sex :性别
local:省份
四、数据预处理
1、去重
import pandas as pd
# 数据导入
df_1 = pd.read_excel('E:\数据分析 项目练习\数据集\电子产品用户消费行为分析\分析数据.xlsx')
# 判断并统计重复数据
print('是否存在重复数据:',df_1.duplicated().any())
print('重复数据个数为:',df_1.duplicated().sum())
# 删除重复数据
# inplace=True时删除表格中重复的数据
df_1.drop_duplicates(inplace=True)
# 去重后的数据保存为新表
df_2 = pd.ExcelWriter('E:\数据分析 项目练习\数据集\电子产品用户消费行为分析\去重数据.xlsx') # 创建文件对象
df_1.to_excel(df_2) # 将处理后的data写入新建的excel中
df_2.save()