介绍
这篇文章是想继续总结一遍优惠券预测,写写感受并进行一个记录总结,零零散散以作为记录整理之用。
本篇是选了三点本人觉得项目中重要的写了一下,其它内容暂时略过
- 第一部分:数据清洗数据分析代码基本功
- 第二部分:特征理解和选择
- 第三部分:模型选择和调休
数据分析利器-python
在用python进行数据分析时候,确实发现其有很多方便之处,其强大的函数处理功能,正看在《利用python进行数据分析》这本书发现还是不错的,简单内容如下:
笔记:
- copy
用在了提取特征地方,复制一份数据单独处理,不影响以前的,默认深复制
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
print(frame)
# 深复制 修改不影响原对象
data_deep_copy = frame.copy()
data_deep_copy.iloc[1] = 2018
print(data_deep_copy)
print(frame)
# 浅复制 修改影响原对象
data_shallow_copy = frame.copy(deep = False)
data_shallow_copy.iloc[1] = 2019
print(data_shallow_copy)
print(frame)
-梳理
分组
在提取用户特征时,根据User_id进行分组,得到分组对象,然后可以再分组对象上进行各种统计操作。
# 用户 User 特征
u = fdf[['User_id']].copy().drop_duplicates()
# u_coupon_count : num of coupon received by user
u1 = fdf[fdf['Date_received'] != -10][['User_id']].copy()
# 每个用户领取