计算机毕业设计PyFlink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数据毕业设计 Spark Hive 深度学习机器学习

最新推荐文章于 2025-12-04 18:10:19 发布

原创最新推荐文章于 2025-12-04 18:10:19 发布 · 905 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据 #课程设计 #机器学习 #深度学习 #python #人工智能

大数据毕业设计专栏收录该内容

6021 篇文章

订阅专栏

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

以下是一篇技术说明文档《基于PyFlink与Hadoop的广告推荐系统技术实现》，内容涵盖系统架构、核心模块、技术选型与优化实践，适合技术人员参考：

基于PyFlink与Hadoop的广告推荐系统技术实现

版本：V1.0
作者：技术团队
日期：2023年XX月

1. 系统概述

本系统旨在构建一个低延迟、高吞吐、可扩展的广告推荐平台，核心目标包括：

实时性：用户行为到推荐结果输出的延迟 < 500ms；
准确性：点击率（CTR）较离线系统提升10%以上；
稳定性：支持日均千亿级事件处理，故障自动恢复。

系统采用流批一体计算（PyFlink） + 分布式存储（Hadoop）的混合架构，结合机器学习算法实现个性化推荐。

2. 技术选型与依据

2.1 计算框架：PyFlink

选择原因：

流批一体：统一API处理实时与离线任务，减少代码冗余；
状态管理：内置RocksDB支持TB级状态存储，适合用户画像等长周期特征；
Python生态：兼容Scikit-learn、TensorFlow等库，便于算法快速迭代；
事件时间处理：通过Watermark解决网络延迟导致的乱序问题。

对比Spark Streaming：

特性	PyFlink	Spark Streaming
处理模型	真正的流处理	微批处理（最小100ms）
状态后端	RocksDB/Heap	仅内存
端到端延迟	< 1s	1-10s

2.2 存储系统：Hadoop生态

HDFS：存储原始日志（如用户点击流、广告曝光记录），支持EB级扩展；
HBase：存储用户实时特征（如最近5分钟点击的广告类别）和广告元数据，支持毫秒级随机读写；
YARN：动态分配集群资源，保障PyFlink作业稳定性。

替代方案对比：

HBase vs Redis：HBase适合海量数据存储（PB级），Redis适合缓存热点数据（GB级）；
HDFS vs S3：HDFS延迟更低（本地盘 vs 对象存储），适合实时计算场景。

3. 系统架构设计

3.1 总体架构

系统分为四层（图1）：

数据采集层：
- 通过Kafka接收用户行为日志（JSON格式，字段包括user_id、ad_id、event_time、event_type）；
- 数据分片：按user_id哈希分配到10个Topic，避免单分区瓶颈。
计算层：
- 实时特征计算：PyFlink监听Kafka数据流，计算用户兴趣标签（如“运动爱好者”）；
- 模型推理：加载预训练的Wide&Deep模型，对候选广告进行排序；
- 离线训练：每日凌晨基于Spark训练新模型，保存至HDFS。
存储层：
- HBase表设计：
  
  表名 RowKey 列族用途
  user_profile user_id cf1 用户人口统计信息
  ad_feature ad_id cf1 广告静态特征（类别、素材）
  user_click user_id#timestamp cf1 用户实时点击序列
服务层：
- 提供gRPC接口供上游广告投放系统调用；
- 通过Prometheus监控关键指标（如P99延迟、QPS）。

表名	RowKey	列族	用途
`user_profile`	`user_id`	`cf1`	用户人口统计信息
`ad_feature`	`ad_id`	`cf1`	广告静态特征（类别、素材）
`user_click`	`user_id#timestamp`	`cf1`	用户实时点击序列

<img src="%E6%AD%A4%E5%A4%84%E5%8F%AF%E6%8F%92%E5%85%A5%E7%A4%BA%E6%84%8F%E5%9B%BE%EF%BC%8C%E6%A0%87%E6%B3%A8%E7%BB%84%E4%BB%B6%E4%BA%A4%E4%BA%92%E6%B5%81%E7%A8%8B" />
图1 系统架构图

3.2 核心模块实现

3.2.1 实时特征计算

挑战：用户兴趣需基于滑动窗口动态更新，且需处理乱序数据。

解决方案：

窗口定义：使用SlidingWindow（窗口长度5分钟，滑动步长1分钟）；
乱序处理：设置Watermark延迟为2分钟，丢弃迟到超过阈值的数据；

特征聚合：

python

	`# 计算用户对各广告类别的点击频次`
	`class CategoryCountAggregate(AggregateFunction):`
	`def create_accumulator(self):`
	`return collections.defaultdict(int)`

	`def add(self, acc, event):`
	`category = event['ad_category']`
	`acc[category] += 1`
	`return acc`

	`def get_result(self, acc):`
	`return dict(acc)`

	`# PyFlink作业示例`
	`stream = env.add_source(KafkaSource(...))`
	`result = stream.key_by(lambda x: x['user_id']) \`
	`.window(SlidingWindows.of(Time.minutes(5)).every(Time.minutes(1))) \`
	`.aggregate(CategoryCountAggregate())`