淘宝用户日志数据集的用户行为分析与用户分群

本文分析了淘宝2015年双11前6个月的用户日志数据,进行了数据清洗、访问量与访客量分析、用户行为分析以及通过RFM模型进行用户分群。结果显示,11月访问量与访客量达到峰值,用户主要在28/29号活动较多。RFM模型将用户分为3类:普通用户、重要发展客户和高价值客户,建议针对不同群体采取不同营销策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集描述

数据集是淘宝2015年双11前6个月(2015/5/11-2015/11/11)的用户日志数据
在这里插入图片描述

一、数据清洗

1.读取并查看数据基本信息和数据的完整性
import numpy as np
import pandas as pd
data=pd.read_csv('./data_format/user_log_mini.csv')
data.info()
data.shape
data.head()

在这里插入图片描述

2.查看数据集中行的重复情况并删除

重复的数据行对数据分析没有任何作用,把它给删除掉

data.duplicated()
data1=data.drop_duplicates()
3.处理缺失值

检查数据中是否有缺失值

print(data1.isnull().any())

查看缺失值记录

print(data1.isnull().sum())

缺失值填充

data2=data1.fillna('-1')

在这里插入图片描述
查看数据缺失值情况发现品牌编号(brand_id)属性列缺失了1278个值,为了充分利用数据集,使用-1来填充品牌编号特征的缺失值,表示未知品牌。

4.合并month和day列组成时间类型的date列

因为接下来的可视乎分析需要用到时间,构建一个时间列方便后面分析

import datetime
from datetime import timedelta
#合并month和day列组成date列
data2["date"<
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值