数据处理与分析:从基础操作到高级应用
1. 数据初步处理与特征工程
在数据处理的初始阶段,不必过于担忧性能或代码的优雅性,因为同一问题往往存在多种解决方案。例如,要检查所有注销用户的年龄是否为零,可以使用以下代码:
grouped_by_logged_status = nyt_data.groupby('Signed_In')
import numpy as np
grouped_by_logged_status.agg([np.min, np.max])['Age']
运行结果如下:
| Signed_In | amin | amax |
| — | — | — |
| 0 | 0 | 0 |
| 1 | 7 | 108 |
这表明,对于注销状态的用户,唯一可能的年龄值是零;而对于登录状态的用户,最年轻的用户是 7 岁。
特征工程是一门结合了艺术与科学的领域,它高度依赖于领域知识。在电子商务领域,点击率(CTR)、人口统计信息(如性别)和年龄组是非常有价值的特征。以下是添加年龄组和点击率特征的代码:
# 添加年龄组列
nyt_data['Age_Group'] = pd.cut(nyt_data['Age'], bins=[-1, 0, 17, 24, 34, 44, 54, 64, 120],
labels=["Unknown", "1-17", "18-24", "25-34", "35-44", "45-54", "55-64",