大规模点击日志预测的扩展
在处理大规模的广告点击日志数据时,我们需要一系列的步骤来准备数据、训练模型以及评估模型性能。本文将详细介绍如何使用 PySpark 完成这些任务,包括数据检查、清洗、拆分、编码、模型训练和评估,以及特征工程技术的应用。
1. 数据检查与清洗
首先,我们需要检查数据的大小,并删除一些提供信息较少的列。同时,将 click 列重命名为 label ,以便在后续操作中更方便使用。
# 检查数据大小
>>> df.count()
40428967
# 删除无用列
>>> df = df.drop('id').drop('hour').drop('device_id').drop('device_ip')
# 重命名列
>>> df = df.withColumnRenamed("click", "label")
# 查看当前列
>>> df.columns
['label', 'C1', 'banner_pos', 'site_id', 'site_domain', 'site_category', 'app_id', 'app_domain', 'app_category', 'device_model', 'device_type', 'device_conn_type', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21']
超级会员免费看
订阅专栏 解锁全文
9286

被折叠的 条评论
为什么被折叠?



