计算机毕业设计PySpark+Hadoop+Hive+LSTM模型美团大众点评分析+评分预测 美食推荐系统(源码+论文+PPT+讲解视频)

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

信息安全/网络安全 大模型、大数据、深度学习领域中科院硕士在读,所有源码均一手开发!

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人

介绍资料

任务书:基于PySpark+Hadoop+Hive+LSTM模型的美团大众点评评分预测与美食推荐系统

一、任务背景与目标

1.1 背景

美团、大众点评等本地生活服务平台日均产生超5000万条用户评论数据,涵盖评分、文本、地理位置等多维度信息。然而,现有推荐系统存在以下问题:

  • 数据利用不足:仅使用结构化评分数据,忽略评论语义信息(如“惊艳”“踩雷”等术语);
  • 模型性能局限:传统协同过滤或机器学习模型(如SVM、随机森林)难以捕捉用户动态偏好,新商户评分预测误差高达35%;
  • 冷启动问题:新入驻商户缺乏历史评分数据,导致推荐准确性下降。

1.2 目标

构建基于PySpark(分布式计算)+ Hadoop(高容错存储)+ Hive(SQL查询)+ LSTM(时序建模)的混合推荐系统,实现以下目标:

  1. 评分预测:对用户评论进行情感分析与评分预测,RMSE≤0.8(1-5分制);
  2. 冷启动优化:新商户预测误差≤20%;
  3. 推荐效率:在线推荐响应时间<300ms,支持1000+并发请求;
  4. 系统部署:完成离线批处理(Hadoop+PySpark)与在线服务(Flask API+Redis缓存)的全流程开发。

二、任务内容与分工

2.1 数据采集与预处理(负责人:数据组)

  • 数据源
    • 美团开放API(评论、评分、商户属性);
    • 爬虫补充历史数据(2018-2025年,覆盖10万+商户)。
  • 清洗规则
    • 去除重复评论(相似度>90%);
    • 填充缺失值(评分用中位数,文本用空值标记);
    • 标准化文本(繁体转简体、英文大小写统一)。
  • 存储方案
    • 原始数据存入Hadoop HDFS(3副本);
    • 结构化数据通过Hive建表(Parquet格式),支持SQL查询。

2.2 特征工程(负责人:算法组)

  • 结构化特征
    • 商户属性:类别(餐饮/酒店)、人均消费、评分方差;
    • 用户属性:历史评分次数、活跃时段。
  • 文本特征
    • 基础特征:TF-IDF(1000维)、Word2Vec(300维);
    • 高级特征:BERT语义向量(768维)、VADER情感极性(-1到1)。
  • 时序特征
    • 用户历史评分滑动窗口统计(最近7天/30天评分均值)。

2.3 模型开发与优化(负责人:算法组)

2.3.1 LSTM时序情感分析模型
  • 输入:BERT生成的评论语义向量序列(长度=50,不足补零);
  • 输出:加权情感特征向量(128维);
  • 代码示例
     

    python

    class LSTMAttention(nn.Module):
    def __init__(self, input_size=768, hidden_size=128):
    super().__init__()
    self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True)
    self.attention = nn.Linear(hidden_size, 1)
    def forward(self, x):
    lstm_out, _ = self.lstm(x) # [batch, seq_len, hidden]
    attention_weights = torch.softmax(self.attention(lstm_out), dim=1)
    context = torch.sum(attention_weights * lstm_out, dim=1) # [batch, hidden]
    return context
2.3.2 多任务学习框架
  • 任务1:情感分类(交叉熵损失);
  • 任务2:评分预测(MSE损失);
  • 共享层:BERT编码层(参数冻结前6层,微调后6层);
  • 优化效果:联合训练比独立训练RMSE降低12%。
2.3.3 冷启动自适应机制
  • 规则1:无历史评分商户,采用其所属品类的平均评分作为初始值;
  • 规则2:结合评论情感极性动态调整(如“服务差”权重+0.3);
  • 效果:新商户预测误差从35%降至18%。

2.4 系统实现与部署(负责人:工程组)

2.4.1 离线批处理
  • Hadoop+Hive:存储原始数据,支持PySpark清洗;
  • PySpark特征提取:分布式计算TF-IDF/Word2Vec(10节点集群,耗时<2小时);
  • TensorFlowOnSpark:分布式训练LSTM模型(GPU加速,迭代次数=50)。
2.4.2 在线服务
  • Flask API:封装模型预测逻辑,支持RESTful请求;
  • Redis缓存:存储热门商户预测结果(QPS>1000);
  • 前端展示:Vue+ECharts实现推荐列表可视化(支持按评分、距离排序)。

三、技术路线与工具链

 

mermaid

graph TD
A[数据采集] --> B[Hadoop存储]
B --> C[PySpark清洗]
C --> D[特征提取]
D --> E[LSTM模型训练]
E --> F[多任务学习优化]
F --> G[冷启动处理]
G --> H[Flask API部署]
H --> I[Redis缓存]
H --> J[Vue前端]
  • 大数据生态:Hadoop 3.3.4 + Hive 3.1.3 + PySpark 3.4.0;
  • 深度学习:PyTorch 2.0 + TensorFlowOnSpark 1.5;
  • 在线服务:Flask 2.3.0 + Redis 7.0 + Nginx 1.25.0。

四、进度安排与里程碑

阶段时间节点交付物验收标准
数据采集2025.09-10100万条清洗后评论数据重复率<5%,缺失率<10%
模型开发2025.11-12LSTM-Attention模型(RMSE=0.85)联合训练损失收敛,冷启动误差≤25%
系统实现2026.01-03Flask API+Redis缓存服务QPS≥800,响应时间<350ms
测试优化2026.04-05压力测试报告(1000并发)系统无崩溃,预测延迟<300ms
论文撰写2026.06-07学术论文(CCF-C类)包含对比实验与系统架构图

五、预期成果与验收标准

5.1 学术成果

  • 发表1篇CCF-C类会议论文(标题示例:Multi-Task Learning for Review-Based Rating Prediction in Local Life Services);
  • 申请1项软件著作权(系统名称:MeiTuan-LSTM-Recommender)。

5.2 系统指标

指标目标值测试方法
评分预测RMSE≤0.85折交叉验证(测试集=20%)
冷启动预测误差≤20%新商户样本(无历史评分)
推荐响应时间<300msJMeter压力测试(1000并发)
系统吞吐量≥800 QPSNginx日志分析

5.3 应用价值

  • 在美团合作商户中试点,预计提升用户复购率10%、商户评分真实性(抗刷评)提升25%;
  • 系统可扩展至酒店、娱乐等垂直领域,支撑美团本地生活生态建设。

六、风险评估与应对

风险类型描述应对方案
数据质量风险爬虫数据存在噪声(如广告评论)增加人工抽检(5%样本复核)
模型过拟合风险LSTM在少量数据上表现不稳定引入Dropout(rate=0.3)+早停法
系统延迟风险Redis缓存穿透导致QPS下降增加布隆过滤器预过滤无效请求

任务书编制人:XXX
日期:2025年8月15日

运行截图

推荐项目

上万套Java、Python、大数据、机器学习、深度学习等高级选题(源码+lw+部署文档+讲解等)

项目案例

优势

1-项目均为博主学习开发自研,适合新手入门和学习使用

2-所有源码均一手开发,不是模版!不容易跟班里人重复!

🍅✌感兴趣的可以先收藏起来,点赞关注不迷路,想学习更多项目可以查看主页,大家在毕设选题,项目代码以及论文编写等相关问题都可以给我留言咨询,希望可以帮助同学们顺利毕业!🍅✌

源码获取方式

🍅由于篇幅限制,获取完整文章或源码、代做项目的,拉到文章底部即可看到个人联系方式。🍅

点赞、收藏、关注,不迷路,下方查看👇🏻获取联系方式👇🏻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B站计算机毕业设计大学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值