目录
前言
本文分析以支付宝营销活动为例,通过广告点击率指标比较两组营销策略的广告投放效果。
一、数据介绍
来自阿里天池:数据
用到的是:effect_tb.csv: Click/Non-click dataset.
这个csv文件主要用来记录用户是否对广告进行点击。
二、观察数据
1.引入库
# import libraries
import pandas as pd
import numpy as np
pd.set_option('float_format', lambda x: '%.4f' % x)
2.读入数据
# load data
data = pd.read_csv('effect_tb.csv',header = None)
data.columns = ["试验后天数","用户编号","是否点击","试验组别"]
3.观察数据
data.info()
# table summary
data.describe()
# distinct count of columns
data.nunique()
#把重复用户的用户编号变成一个list去观察
dup_userid=data["用户编号"].value_counts()[data["用户编号"].value_counts()>1].index.tolist()
#查看是否都全部字段都重复的记录
data[data.duplicated()]
虽然有重复的用户id,但是可能在不用的时间(试验后几天)去做这个测试,也可能被放在不同的组别(实验组别)、有不同的结果(是否点击),我们都去验证一下。
print("有重复用户编号的记录条数:",data[data["用户编号"].isin(dup_userid)].shape[0])
print("用户编号和【在第几天试验】重复的记录条数:",data[data["用户编号"].isin(dup_userid)].duplicated(["用户编号","试验后天数"]).sum())
print("用户编号和【是否点击】重复的记录条数:",data[data["用户编号"].isin(dup_userid)].duplicated(["用户编号","是否点击"]).sum())
print(