文章目录
数据集描述
数据集是淘宝2015年双11前6个月(2015/5/11-2015/11/11)的用户日志数据
一、数据清洗
1.读取并查看数据基本信息和数据的完整性
import numpy as np
import pandas as pd
data=pd.read_csv('./data_format/user_log_mini.csv')
data.info()
data.shape
data.head()
2.查看数据集中行的重复情况并删除
重复的数据行对数据分析没有任何作用,把它给删除掉
data.duplicated()
data1=data.drop_duplicates()
3.处理缺失值
检查数据中是否有缺失值
print(data1.isnull().any())
查看缺失值记录
print(data1.isnull().sum())
缺失值填充
data2=data1.fillna('-1')
查看数据缺失值情况发现品牌编号(brand_id)属性列缺失了1278个值,为了充分利用数据集,使用-1来填充品牌编号特征的缺失值,表示未知品牌。
4.合并month和day列组成时间类型的date列
因为接下来的可视乎分析需要用到时间,构建一个时间列方便后面分析
import datetime
from datetime import timedelta
#合并month和day列组成date列
data2["date"<