23、数字展示广告的数据处理与建模分析

最新推荐文章于 2025-11-16 12:01:22 发布

Python

最新推荐文章于 2025-11-16 12:01:22 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精髓文章标签：数字展示广告数据处理奇异值分解

本文链接：https://blog.youkuaiyun.com/python/article/details/152549843

机器学习实战精髓专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数字展示广告的数据处理与建模分析

1. 数据规模与形态

我们从一个包含 900 万条观测值的样本开始分析，这个样本规模较小，可以轻松加载到内存中，方便我们快速计算基数和分布情况。以下是相关代码：

%matplotlib inline
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_pickle('combined.pickle')    
nImps = len(df)
nPubs = len(df.pub_domain.unique())
nUsers = len(df.user_id.unique())
print('nImps={}\nnPubs={}\nnUsers={}'.format(nImps, nPubs, nUsers))

运行结果如下：
| 指标 | 数值 |
| ---- | ---- |
| nImps | 9098807 |
| nPubs | 41576 |
| nUsers | 3696476 |

计算用户/发布商矩阵的大小（除以 100 万以便于阅读）：