计算机毕业设计PySpark+Hadoop+Hive+LSTM模型美团大众点评分析+评分预测美食推荐系统(源码+论文+PPT+讲解视频)

最新推荐文章于 2025-12-04 18:10:19 发布

原创最新推荐文章于 2025-12-04 18:10:19 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#课程设计 #大数据 #hadoop #深度学习 #python #毕业设计 #数据可视化

大数据毕业设计专栏收录该内容

6041 篇文章

订阅专栏

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

PySpark+Hadoop+Hive+LSTM模型在美团大众点评分析与评分预测中的技术实现

一、技术背景与业务需求

美团、大众点评等本地生活服务平台每日产生超800万条用户评论数据，涵盖评分、文本、地理位置等多维度信息。传统推荐系统依赖协同过滤算法，受限于数据稀疏性（用户评分覆盖率不足5%）和静态特征提取能力，难以捕捉用户偏好的动态变化。例如，用户对某餐厅的评分可能因服务质量波动呈现阶段性变化，而传统模型仅能基于历史均值进行预测。

为解决上述问题，本方案采用PySpark+Hadoop+Hive+LSTM的混合架构：

Hadoop HDFS：提供PB级数据存储与三副本容错能力；
Hive数据仓库：构建星型模型支持复杂查询；
PySpark：实现分布式数据清洗与特征工程；
LSTM模型：捕捉用户评分行为的时序依赖关系。

二、技术架构设计

2.1 分布式存储与计算层

2.1.1 Hadoop HDFS配置

采用3个NameNode（高可用模式）+6个DataNode的集群配置，关键参数如下：

xml

	`<!-- hdfs-site.xml -->`
	`<property>`
	`<name>dfs.blocksize</name>`
	`<value>134217728</value> <!-- 128MB分块 -->`
	`</property>`
	`<property>`
	`<name>dfs.replication</name>`
	`<value>3</value> <!-- 三副本存储 -->`
	`</property>`

数据按/data/meituan/comments/{year}/{month}/{day}路径分区存储，支持按时间范围高效查询。

2.1.2 Hive数据仓库建模

构建星型模型包含以下核心表：

sql

	`-- 商家维度表`
	`CREATE TABLE dim_merchants (`
	`merchant_id STRING PRIMARY KEY,`
	`category STRING COMMENT '餐饮品类',`
	`avg_price DECIMAL(10,2),`
	`geohash STRING COMMENT '6位精度GeoHash编码'`
	`) STORED AS ORC;`

	`-- 评论事实表`
	`CREATE TABLE fact_comments (`
	`comment_id STRING,`
	`user_id STRING,`
	`merchant_id STRING,`
	`rating DECIMAL(2,1),`
	`comment_text STRING,`
	`create_time TIMESTAMP,`
	`FOREIGN KEY (merchant_id) REFERENCES dim_merchants(merchant_id)`
	`) PARTITIONED BY (dt DATE) STORED AS ORC;`

2.2 数据处理层

2.2.1 PySpark ETL流程

实现数据清洗、特征提取与存储一体化处理：

python

	`from pyspark.sql import SparkSession`
	`from pyspark.sql.functions import col, when, length, udf`
	`from pyspark.ml.feature import HashingTF, IDF`

	`# 初始化SparkSession`
	`spark = SparkSession.builder \`
	`.appName("MeituanETL") \`
	`.config("spark.sql.shuffle.partitions", "200") \`
	`.getOrCreate()`

	`# 数据清洗`
	`df_raw = spark.read.json("hdfs://namenode:8020/data/meituan/comments")`
	`df_clean = df_raw.filter(`
	`(col("rating").between(1, 5)) &`
	`(length(col("comment_text")) > 5)`
	`)`

	`# 文本特征提取`
	`hashingTF = HashingTF(inputCol="tokens", outputCol="raw_features", numFeatures=2**18)`
	`idf = IDF(inputCol="raw_features", outputCol="tfidf_features")`

	`# 注册UDF处理GeoHash`
	`geohash_udf = udf(lambda lon, lat: geohash.encode(lon, lat, precision=6))`
	`df_features = df_clean.withColumn("geohash", geohash_udf(col("longitude"), col("latitude")))`

2.2.2 多模态特征融合

从三个维度提取特征：

特征类型	示例特征	处理方式
用户特征	年龄、消费频率	标准化处理
商家特征	品类、人均消费、评分方差	One-Hot编码
时空特征	GeoHash、时间分桶（午餐/晚餐）	嵌入层（Embedding）

2.3 深度学习模型层

2.3.1 LSTM-Attention模型结构

python

	`import tensorflow as tf`
	`from tensorflow.keras.layers import LSTM, Dense, Attention, MultiHeadAttention`

	`# 输入层`
	`input_layer = tf.keras.Input(shape=(None, 128)) # 序列长度×特征维度`

	`# 双向LSTM层`
	`lstm_out = tf.keras.layers.Bidirectional(`
	`LSTM(64, return_sequences=True)`
	`)(input_layer)`

	`# 注意力机制`
	`attention_out = MultiHeadAttention(num_heads=4, key_dim=64)(lstm_out, lstm_out)`

	`# 输出层`
	`output = Dense(1, activation='linear')(attention_out[:, -1, :]) # 取最后一个时间步`

	`model = tf.keras.Model(inputs=input_layer, outputs=output)`
	`model.compile(optimizer='adam', loss='mse')`

2.3.2 模型训练优化

损失函数：采用Huber损失减少异常值影响：

Lδ(y,y^)={21(y−y^)2δ∣y−y^∣−21δ2for ∣y−y^∣≤δotherwise

早停机制：监控验证集MAE，连续5轮不下降则停止训练
分布式训练：通过tf.distribute.MirroredStrategy实现多GPU并行

三、关键技术实现

3.1 数据分区与查询优化

3.1.1 Hive分区策略

按日期分区存储评论数据：

sql

	`-- 创建分区表`
	`CREATE TABLE fact_comments_partitioned (`
	`-- 字段定义同上`
	`) PARTITIONED BY (dt DATE) STORED AS ORC;`

	`-- 动态分区插入`
	`SET hive.exec.dynamic.partition=true;`
	`SET hive.exec.dynamic.partition.mode=nonstrict;`

	`INSERT OVERWRITE TABLE fact_comments_partitioned PARTITION(dt)`
	`SELECT *, cast(create_time as date) as dt FROM fact_comments_staging;`

3.1.2 GeoHash查询优化

通过GeoHash编码实现地理位置范围查询：

python

	`# 计算目标区域的GeoHash边界`
	`def get_geohash_range(lon, lat, radius_km):`
	`precision = 6 # 约1.2km²精度`
	`base = geohash.encode(lon, lat, precision)`
	`neighbors = geohash.neighbors(base)`
	`return [base] + list(neighbors.values())`

	`# Spark SQL中注册UDF`
	`geohash_range_udf = udf(get_geohash_range, ArrayType(StringType()))`
	`spark.udf.register("get_geohash_range", geohash_range_udf)`

3.2 特征工程创新

3.2.1 时序特征构建

提取用户评分序列的统计特征：

python

	`from pyspark.sql.window import Window`
	`from pyspark.sql.functions import avg, stddev, collect_list`

	`# 计算用户30天评分均值与标准差`
	`w = Window.partitionBy("user_id").orderBy("create_time").rowsBetween(-30, 0)`
	`df_temporal = df_clean.withColumn(`
	`"rating_stats",`
	`struct(`
	`avg("rating").over(w).alias("avg_rating"),`
	`stddev("rating").over(w).alias("rating_volatility")`
	`)`
	`)`

3.2.2 文本情感增强

结合BERT模型提取深度语义特征：

python

	`from transformers import BertTokenizer, TFBertModel`

	`tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')`
	`bert_model = TFBertModel.from_pretrained('bert-base-chinese')`

	`def extract_bert_features(texts):`
	`inputs = tokenizer(texts, return_tensors="tf", padding=True, truncation=True)`
	`outputs = bert_model(inputs)`
	`return outputs.last_hidden_state[:, 0, :].numpy() # 取[CLS]标记`

	`# 注册Pandas UDF`
	`import pandas as pd`
	`from pyspark.sql.functions import pandas_udf`

	`@pandas_udf('array<float>', functionType=PandasUDFType.SCALAR)`
	`def bert_udf(text_series: pd.Series) -> pd.Series:`
	`return pd.Series([extract_bert_features([t])[0].tolist() for t in text_series])`

3.3 模型部署与监控

3.3.1 TensorFlow Serving部署

dockerfile

	`# Dockerfile示例`
	`FROM tensorflow/serving:2.8.0`
	`COPY saved_model /models/lstm_rating/1/`
	`ENV MODEL_NAME=lstm_rating`
	`EXPOSE 8501`

3.3.2 Prometheus监控指标

yaml

	`# prometheus.yml配置`
	`scrape_configs:`
	`- job_name: 'tf-serving'`
	`static_configs:`
	`- targets: ['tf-serving:8501']`
	`metrics_path: '/monitoring/prometheus/metrics'`