一、数据字段信息
action(用户行为)
字段名称 | 意义 |
---|---|
user_id | 用户编号 |
sku_id | 商品编号 |
type | 行为类型 |
time | 行为时间 |
cate | 品类ID |
user(用户数据)
字段名称 | 意义 |
---|---|
user_id | 用户编号 |
age | 年龄 |
sex | 性别 |
user_lv_cd | 用户级别 |
browse_num | 浏览数 |
addcart_num | 加购数 |
delcart_num | 删购数 |
buy_num | 购买数 |
favor_num | 收藏数 |
click_num | 点击数 |
二、数据读取
import pandas as pd # 导入 Pandas 库并使用别名 pd
# 指定 CSV 文件路径
path = r'F:\data\action.csv'
# 通过 Pandas 读取 CSV 文件,使用 chunksize 参数分块读取,每块大小为 10000 行
data = pd.read_csv(path, chunksize=10000)
# 初始化一个空列表,用于存储每次读取的数据块
chunks = []
# 遍历每个数据块并将其转换为 DataFrame,然后添加到列表中
for chunk in data:
chunk = pd.DataFrame(chunk)
chunks.append(chunk)
# 将所有数据块拼接成一个大的 DataFrame
action = pd.concat(chunks)
# 打印数据的信息,包括列名、非空值数量等
action.info()
# 选择特定的列:'user_id','sku_id','time','type','cate'
action = action[['user_id', 'sku_id', 'time', 'type', 'cate']]
# 输出筛选后的数据的基本信息
action.info()
# 输出筛选后的数据的基本信息
print(action.head())