计算机毕业设计PySpark+Hadoop+Hive+LSTM模型美团大众点评分析+评分预测美食推荐系统(源码+论文+PPT+讲解视频)

最新推荐文章于 2025-12-07 16:42:36 发布

原创最新推荐文章于 2025-12-07 16:42:36 发布 · 1.2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #课程设计 #hive #大数据 #python #数据分析 #spark

大数据毕业设计专栏收录该内容

6061 篇文章

订阅专栏

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

任务书：基于PySpark+Hadoop+Hive+LSTM模型的美团大众点评评分预测与美食推荐系统

一、任务背景与目标

1.1 背景

美团、大众点评等本地生活服务平台日均产生超5000万条用户评论数据，涵盖评分、文本、地理位置等多维度信息。然而，现有推荐系统存在以下问题：

数据利用不足：仅使用结构化评分数据，忽略评论语义信息（如“惊艳”“踩雷”等术语）；
模型性能局限：传统协同过滤或机器学习模型（如SVM、随机森林）难以捕捉用户动态偏好，新商户评分预测误差高达35%；
冷启动问题：新入驻商户缺乏历史评分数据，导致推荐准确性下降。

1.2 目标

构建基于PySpark（分布式计算）+ Hadoop（高容错存储）+ Hive（SQL查询）+ LSTM（时序建模）的混合推荐系统，实现以下目标：

评分预测：对用户评论进行情感分析与评分预测，RMSE≤0.8（1-5分制）；
冷启动优化：新商户预测误差≤20%；
推荐效率：在线推荐响应时间<300ms，支持1000+并发请求；
系统部署：完成离线批处理（Hadoop+PySpark）与在线服务（Flask API+Redis缓存）的全流程开发。

二、任务内容与分工

2.1 数据采集与预处理（负责人：数据组）

数据源：
- 美团开放API（评论、评分、商户属性）；
- 爬虫补充历史数据（2018-2025年，覆盖10万+商户）。
清洗规则：
- 去除重复评论（相似度>90%）；
- 填充缺失值（评分用中位数，文本用空值标记）；
- 标准化文本（繁体转简体、英文大小写统一）。
存储方案：
- 原始数据存入Hadoop HDFS（3副本）；
- 结构化数据通过Hive建表（Parquet格式），支持SQL查询。

2.2 特征工程（负责人：算法组）

结构化特征：
- 商户属性：类别（餐饮/酒店）、人均消费、评分方差；
- 用户属性：历史评分次数、活跃时段。
文本特征：
- 基础特征：TF-IDF（1000维）、Word2Vec（300维）；
- 高级特征：BERT语义向量（768维）、VADER情感极性（-1到1）。
时序特征：
- 用户历史评分滑动窗口统计（最近7天/30天评分均值）。

2.3 模型开发与优化（负责人：算法组）

2.3.1 LSTM时序情感分析模型

输入：BERT生成的评论语义向量序列（长度=50，不足补零）；
输出：加权情感特征向量（128维）；

代码示例：

python

	`class LSTMAttention(nn.Module):`
	`def __init__(self, input_size=768, hidden_size=128):`
	`super().__init__()`
	`self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True)`
	`self.attention = nn.Linear(hidden_size, 1)`

	`def forward(self, x):`
	`lstm_out, _ = self.lstm(x) # [batch, seq_len, hidden]`
	`attention_weights = torch.softmax(self.attention(lstm_out), dim=1)`
	`context = torch.sum(attention_weights * lstm_out, dim=1) # [batch, hidden]`
	`return context`

2.3.2 多任务学习框架

任务1：情感分类（交叉熵损失）；
任务2：评分预测（MSE损失）；
共享层：BERT编码层（参数冻结前6层，微调后6层）；
优化效果：联合训练比独立训练RMSE降低12%。

2.3.3 冷启动自适应机制

规则1：无历史评分商户，采用其所属品类的平均评分作为初始值；
规则2：结合评论情感极性动态调整（如“服务差”权重+0.3）；
效果：新商户预测误差从35%降至18%。

2.4 系统实现与部署（负责人：工程组）

2.4.1 离线批处理

Hadoop+Hive：存储原始数据，支持PySpark清洗；
PySpark特征提取：分布式计算TF-IDF/Word2Vec（10节点集群，耗时<2小时）；
TensorFlowOnSpark：分布式训练LSTM模型（GPU加速，迭代次数=50）。

2.4.2 在线服务

Flask API：封装模型预测逻辑，支持RESTful请求；
Redis缓存：存储热门商户预测结果（QPS>1000）；
前端展示：Vue+ECharts实现推荐列表可视化（支持按评分、距离排序）。

三、技术路线与工具链

mermaid

	`graph TD`
	`A[数据采集] --> B[Hadoop存储]`
	`B --> C[PySpark清洗]`
	`C --> D[特征提取]`
	`D --> E[LSTM模型训练]`
	`E --> F[多任务学习优化]`
	`F --> G[冷启动处理]`
	`G --> H[Flask API部署]`
	`H --> I[Redis缓存]`
	`H --> J[Vue前端]`

大数据生态：Hadoop 3.3.4 + Hive 3.1.3 + PySpark 3.4.0；
深度学习：PyTorch 2.0 + TensorFlowOnSpark 1.5；
在线服务：Flask 2.3.0 + Redis 7.0 + Nginx 1.25.0。

四、进度安排与里程碑

阶段	时间节点	交付物	验收标准
数据采集	2025.09-10	100万条清洗后评论数据	重复率<5%，缺失率<10%
模型开发	2025.11-12	LSTM-Attention模型（RMSE=0.85）	联合训练损失收敛，冷启动误差≤25%
系统实现	2026.01-03	Flask API+Redis缓存服务	QPS≥800，响应时间<350ms
测试优化	2026.04-05	压力测试报告（1000并发）	系统无崩溃，预测延迟<300ms
论文撰写	2026.06-07	学术论文（CCF-C类）	包含对比实验与系统架构图

五、预期成果与验收标准

5.1 学术成果

发表1篇CCF-C类会议论文（标题示例：Multi-Task Learning for Review-Based Rating Prediction in Local Life Services）；
申请1项软件著作权（系统名称：MeiTuan-LSTM-Recommender）。

5.2 系统指标

指标	目标值	测试方法
评分预测RMSE	≤0.8	5折交叉验证（测试集=20%）
冷启动预测误差	≤20%	新商户样本（无历史评分）
推荐响应时间	<300ms	JMeter压力测试（1000并发）
系统吞吐量	≥800 QPS	Nginx日志分析

5.3 应用价值

在美团合作商户中试点，预计提升用户复购率10%、商户评分真实性（抗刷评）提升25%；
系统可扩展至酒店、娱乐等垂直领域，支撑美团本地生活生态建设。

六、风险评估与应对

风险类型	描述	应对方案
数据质量风险	爬虫数据存在噪声（如广告评论）	增加人工抽检（5%样本复核）
模型过拟合风险	LSTM在少量数据上表现不稳定	引入Dropout（rate=0.3）+早停法
系统延迟风险	Redis缓存穿透导致QPS下降	增加布隆过滤器预过滤无效请求

任务书编制人：XXX
日期：2025年8月15日