计算机毕业设计hadoop+spark+hive视频推荐系统视频可视化大数据毕业设计(源码+LW文档+PPT+讲解)

最新推荐文章于 2025-12-20 18:17:43 发布

原创最新推荐文章于 2025-12-20 18:17:43 发布 · 730 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据 #课程设计 #python #hive #spark #django

大数据毕业设计专栏收录该内容

6334 篇文章

订阅专栏

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

Hadoop+Spark+Hive视频推荐系统技术说明

一、系统背景与目标

在短视频、在线教育、流媒体平台爆发式增长的背景下，用户每日产生的视频观看行为数据量级已达PB级（如某头部平台单日新增数据超500TB）。传统推荐系统依赖单机或小规模集群处理数据，存在计算延迟高（>1小时）、特征维度单一（仅用户-物品交互）、冷启动效果差等问题。本系统基于Hadoop+Spark+Hive构建分布式推荐引擎，目标实现：

实时推荐：用户行为数据从产生到推荐结果更新延迟<5秒
高精度预测：点击率（CTR）预测AUC值≥0.85
冷启动优化：新用户/新视频推荐覆盖率提升至90%

二、系统架构设计

系统采用分层架构，包含数据采集层、存储层、特征工程层、模型训练层、推荐服务层，各层通过消息队列解耦，支持横向扩展。

1. 数据采集层

功能：全渠道采集用户行为数据、视频元数据、上下文信息，支持高并发写入（>10万QPS）。
实现方式：

用户行为采集：
- 前端埋点：通过JavaScript SDK采集播放时长、快进、暂停、点赞等事件，以Protobuf格式压缩后通过Kafka实时传输。例如，用户观看视频时，前端记录播放进度、是否点赞等信息，通过Kafka发送至后端。
- 服务端日志：Flume采集Nginx访问日志，解析出用户ID、视频ID、请求时间等字段。
视频元数据采集：
- 定时爬取：Scrapy框架从合作平台API获取视频标题、标签、分类、时长等信息，存储为JSON格式。
- 实时更新：通过MySQL Binlog监听视频信息变更（如标题修改），使用Canal中间件同步至大数据平台。
上下文信息采集：
- 设备信息：User-Agent解析获取设备类型（手机/PC）、操作系统版本。
- 地理位置：IP反查获取用户所在城市（精度至地级市）。

2. 数据存储层

功能：构建分布式存储体系，支持结构化/非结构化数据高效读写，满足离线与实时分析需求。
实现方式：

HDFS存储原始数据：
- 按日期分区存储用户行为日志（如/logs/2025/09/21/），单文件大小控制在128MB~1GB以优化NameNode性能。
- 视频元数据存储为Parquet格式，列式存储提升查询效率（如仅查询标题时无需读取完整行）。
Hive构建数据仓库：
- 创建ODS层（原始数据）、DWD层（清洗后数据）、DWS层（聚合数据）三级表结构。例如，ODS层存储原始日志，DWD层过滤无效行为（如播放时长<1秒的记录），DWS层按用户ID聚合每日观看视频列表。
- 使用Hive SQL定义数据转换逻辑，如计算用户历史观看视频的分类分布：

sql

	`CREATE TABLE user_category_dist AS`
	`SELECT`
	`user_id,`
	`category,`
	`COUNT(*) as view_count`
	`FROM dwd_user_video_view`
	`GROUP BY user_id, category;`

HBase存储实时特征：
- 创建用户特征表（cf:user_features）和视频特征表（cf:item_features），行键设计为MD5(user_id)和MD5(video_id)，支持毫秒级随机读取。例如，用户特征表存储用户的年龄、性别、历史偏好等特征。

3. 特征工程层

功能：从原始数据中提取高维稀疏特征与低维稠密特征，构建用户-视频联合特征向量。
实现方式：

用户特征提取：
- 统计特征：使用Spark SQL计算用户近7天观看视频总数、平均播放时长、点赞率等。例如，计算用户近7天的观看视频总数：

python

	`from pyspark.sql import functions as F`
	`user_stats = spark.sql("""`
	`SELECT`
	`user_id,`
	`COUNT(*) as view_count_7d,`
	`AVG(play_duration) as avg_play_duration_7d`
	`FROM dwd_user_video_view`
	`WHERE dt >= date_sub(current_date(), 7)`
	`GROUP BY user_id`
	`""")`

序列特征：将用户历史观看视频ID序列输入Word2Vec模型，生成128维嵌入向量。例如，使用Gensim库训练Word2Vec模型，将用户观看的视频ID序列转换为向量。
实时特征：通过Spark Streaming计算用户最近1小时观看的视频分类分布，更新至HBase。
视频特征提取：
- 元数据特征：对视频标题使用TF-IDF向量化（维度=10000），标签使用MultiHot编码（如“动作+喜剧”编码为[1,0,1,...]）。
- 图像特征：使用预训练ResNet模型提取视频封面图2048维特征，通过PCA降维至128维。
- 流行度特征：计算视频过去24小时的播放量、点赞量、完播率，进行Min-Max归一化。
特征交叉：
- 显式交叉：将用户年龄与视频分类进行笛卡尔积，生成“20-25岁_动作片”等组合特征。
- 隐式交叉：使用FM模型自动学习特征间交互权重，输出50维交叉特征向量。

4. 模型训练层

功能：集成多种推荐算法，通过离线训练与在线学习结合，持续优化推荐效果。
实现方式：

离线训练：
- Wide&Deep模型：
  - Wide部分：使用Spark MLlib的LinearRegression训练线性模型，处理记忆性特征（如用户历史观看过的视频）。
  - Deep部分：通过TensorFlowOnSpark构建4层DNN（输入层→256维→128维→64维→输出层），处理泛化性特征（如用户年龄与视频分类的交叉）。
  - 联合训练：定义联合损失函数Loss = α * Loss_wide + (1-α) * Loss_deep，通过Adam优化器迭代更新参数。
- Two-Tower模型：
  - 用户塔：输入用户特征向量，输出128维用户嵌入。
  - 物品塔：输入视频特征向量，输出128维视频嵌入。
  - 相似度计算：使用Spark的RowMatrix.columnSimilarities计算用户-视频嵌入的余弦相似度，生成推荐列表。
在线学习：
- 通过Flink实时消费用户反馈数据（如点击、播放完成），使用在线梯度下降（OGD）更新模型参数，适应数据分布变化。例如，当用户对某类视频的点击率突然上升时，模型快速调整相关特征的权重。
模型评估：
- 离线评估：使用历史数据划分训练集/测试集，计算AUC、Recall@K等指标。例如，在测试集上计算AUC值，评估模型的预测能力。
- 在线AB测试：将用户随机分为两组，分别使用新旧模型生成推荐，对比点击率差异。

5. 推荐服务层

功能：提供低延迟（<100ms）的推荐接口，支持多场景推荐策略切换。
实现方式：

召回阶段：
- 多路召回：并行执行基于内容的召回（视频标签匹配）、协同过滤召回（用户相似度）、实时兴趣召回（最近观看视频相似视频），合并结果后去重。
- 索引优化：使用Milvus向量数据库构建视频嵌入向量索引，支持毫秒级最近邻搜索。例如，根据用户嵌入向量，在Milvus中搜索最相似的视频嵌入向量。
排序阶段：
- 特征拼接：将召回视频的特征与用户实时特征拼接，输入预训练好的Wide&Deep模型进行CTR预测。
- 规则过滤：排除用户已观看、黑名单视频，根据运营规则（如广告位占比）调整推荐列表。
服务部署：
- 使用Spring Cloud构建微服务架构，推荐服务通过RESTful API对外提供服务，注册至Nacos服务发现中心。
- 缓存加速：Redis缓存热门视频特征与模型预测结果，减少重复计算。例如，将热门视频的特征和预测得分存储在Redis中，当用户请求推荐时，优先从Redis中获取结果。

三、关键技术实现

1. 冷启动优化

新用户：基于设备信息（如手机型号）和地理位置进行初始推荐，例如向使用高端手机的用户推荐高清视频。
新视频：利用视频元数据相似度（如标题TF-IDF余弦相似度）关联已有热门视频，快速积累初始曝光。例如，新视频的标题与某热门视频相似，则将新视频推荐给观看过该热门视频的用户。
混合推荐：在推荐列表中预留10%位置给冷启动内容，通过探索与利用（E&E）策略平衡新内容曝光与用户体验。

2. 实时性保障

流批一体处理：使用Spark Structured Streaming统一处理实时与离线数据，代码复用率提升60%。例如，使用相同的代码逻辑处理实时和离线的用户行为数据。
增量计算：仅对新增数据进行特征更新与模型微调，避免全量计算延迟。例如，当有新的用户行为数据时，只更新该用户的相关特征和模型参数。
预计算与缓存：提前计算用户长期兴趣特征（如历史偏好分类）并缓存，实时计算仅处理短期兴趣变化。