数字展示广告的数据处理与建模分析
1. 数据规模与形态
我们从一个包含 900 万条观测值的样本开始分析,这个样本规模较小,可以轻松加载到内存中,方便我们快速计算基数和分布情况。以下是相关代码:
%matplotlib inline
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_pickle('combined.pickle')
nImps = len(df)
nPubs = len(df.pub_domain.unique())
nUsers = len(df.user_id.unique())
print('nImps={}\nnPubs={}\nnUsers={}'.format(nImps, nPubs, nUsers))
运行结果如下:
| 指标 | 数值 |
| ---- | ---- |
| nImps | 9098807 |
| nPubs | 41576 |
| nUsers | 3696476 |
计算用户/发布商矩阵的大小(除以 100 万以便于阅读):
(nPubs * nUsers) / 1000000
结果为 153.684 亿个单元格,这是一个相当大的矩阵。不过幸运的是,大多数用户不会访问大多数域名,因此用
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



