【有源码】基于Hadoop的多维饮食风味数据分析平台-基于大数据的个性化饮食推荐数据分析可视化系统-基于Hadoop+Spark的饮食偏好大数据挖掘系统c

最新推荐文章于 2025-11-23 21:51:25 发布

原创最新推荐文章于 2025-11-23 21:51:25 发布 · 702 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #数据挖掘 #hadoop #机器学习 #数据分析 #spark #毕业设计

项目同时被 3 个专栏收录

282 篇文章

订阅专栏

Python

128 篇文章

订阅专栏

大数据

112 篇文章

订阅专栏

【投稿赢 iPhone 17】「我的第一个开源项目」故事征集：用代码换C位出道！ 10w+人浏览 1.6k人参与

注意：该项目只展示部分功能，如需了解，文末咨询即可。

本文目录

1 开发环境
2 系统设计
3 系统展示
3.1 功能展示视频
3.2 大屏页面
3.3 分析页面
3.4 基础页面

4 更多推荐
5 部分功能代码

1 开发环境

发语言：python
采用技术：Spark、Hadoop、Django、Vue、Echarts等技术框架
数据库：MySQL
开发环境：PyCharm

2 系统设计

随着大数据技术的快速发展和人们对健康饮食关注度的持续提升，个性化饮食推荐成为智慧生活领域的重要研究方向。传统的饮食推荐往往忽略了用户个体差异、地域文化背景以及生活习惯等多维度因素对口味偏好的影响。本系统基于大数据技术，通过对用户年龄、睡眠周期、运动习惯、气候带、历史菜系接触等多元特征数据的深度挖掘与分析,实现对用户饮食风味偏好的精准画像与预测。系统采用Python、Spark、Hadoop等大数据处理技术构建分布式数据分析平台,结合Vue和Echarts实现可视化交互界面,为用户提供科学、个性化的饮食建议。该系统不仅能够帮助餐饮企业实现精准营销,提升用户满意度,还可为营养健康管理、智慧餐饮等领域提供数据支撑,具有重要的应用价值和社会意义。

系统包含四大核心分析模块。一是用户基本画像与口味偏好关联分析模块,实现不同年龄段、睡眠习惯、运动强度用户的口味偏好分布统计,以及年龄与生活习惯组合下的精细化口味分析。二是地理与文化背景影响分析模块,探索气候带、历史菜系背景对口味选择的影响,并进行气候带与菜系的交叉影响分析及特定菜系下不同年龄用户的口味差异研究。三是用户分群与潜在偏好挖掘模块,采用K-Means聚类算法对用户进行自动分群,分析各用户画像的口味偏好特征,反向挖掘各口味的核心用户群体特征。四是核心影响因素关联分析模块,通过卡方检验等方法量化各特征与口味的关联强度,进行特定场景下的口味组合分析。

3 系统展示

3.1 功能展示视频

基于spark+python的个性化饮食风味数据分析系统源码！！！请点击这里查看功能演示！！！

3.2 大屏页面

在这里插入图片描述

3.3 分析页面

在这里插入图片描述

3.4 基础页面

在这里插入图片描述

5 部分功能代码

def perform_kmeans_clustering(df):
    """
    执行K-Means聚类算法
    返回包含聚类结果的DataFrame
    """
    print(f"\n开始K-Means聚类分析（K={K_CLUSTERS}）...")
    
    # 创建K-Means模型
    kmeans = KMeans(
        k=K_CLUSTERS,
        seed=SEED,
        maxIter=MAX_ITERATIONS,
        featuresCol="features",
        predictionCol="cluster"
    )
    
    # 训练模型
    model = kmeans.fit(df)
    
    # 预测聚类结果
    clustered_df = model.transform(df)
    
    # 计算聚类评估指标
    wssse = model.summary.trainingCost
    print(f"聚类完成！Within Set Sum of Squared Errors (WSSSE) = {wssse:.2f}")
    
    # 显示聚类中心
    centers = model.clusterCenters()
    print("\n聚类中心：")
    for i, center in enumerate(centers):
        print(f"簇 {i}: {center}")
    
    return clustered_df, model

def analyze_cluster_characteristics(df):
    """
    分析每个簇的特征，生成簇描述
    对应需求分析3.1：基于生活习惯与环境特征的用户聚类
    """
    print("\n开始分析各簇特征...")
    
    cluster_descriptions = []
    
    # 对每个簇进行特征统计
    for cluster_id in range(K_CLUSTERS):
        cluster_data = df.filter(col("cluster") == cluster_id)
        cluster_count = cluster_data.count()
        
        # 统计该簇的主要特征
        avg_age = cluster_data.agg(avg("age")).collect()[0][0]
        
        # 获取该簇最常见的分类特征
        main_sleep = cluster_data.groupBy("sleep_cycle").count() \
            .orderBy(desc("count")).first()["sleep_cycle"]
        
        main_exercise = cluster_data.groupBy("exercise_habits").count() \
            .orderBy(desc("count")).first()["exercise_habits"]
        
        main_climate = cluster_data.groupBy("climate_zone").count() \
            .orderBy(desc("count")).first()["climate_zone"]
        
        main_cuisine = cluster_data.groupBy("historical_cuisine_exposure").count() \
            .orderBy(desc("count")).first()["historical_cuisine_exposure"]
        
        # 生成簇描述
        description = f"平均年龄{avg_age:.1f}岁，主要为{main_sleep}作息，{main_exercise}运动，" \
                     f"生活在{main_climate}气候，接触{main_cuisine}菜系"
        
        cluster_descriptions.append({
            "cluster": cluster_id,
            "cluster_description": description,
            "user_count": cluster_count,
            "avg_age": round(avg_age, 2),
            "main_sleep_cycle": main_sleep,
            "main_exercise_habits": main_exercise,
            "main_climate_zone": main_climate,
            "main_cuisine_exposure": main_cuisine
        })
        
        print(f"簇 {cluster_id} ({cluster_count}人): {description}")
    
    # 转换为DataFrame
    cluster_desc_df = spark.createDataFrame(cluster_descriptions)
    
    return cluster_desc_df

def analyze_cluster_taste_preferences(df, cluster_desc_df):
    """
    分析每个用户画像（簇）的口味偏好分布
    对应需求分析3.2：不同用户画像（簇）的口味偏好分析
    """
    print("\n开始分析各簇口味偏好...")
    
    # 计算每个簇中各种口味的数量和占比
    cluster_taste_stats = df.groupBy("cluster", "preferred_taste") \
        .agg(count("*").alias("taste_count"))
    
    # 计算每个簇的总人数
    cluster_totals = df.groupBy("cluster") \
        .agg(count("*").alias("total_count"))
    
    # 关联并计算占比
    cluster_taste_df = cluster_taste_stats.join(cluster_totals, "cluster")
    cluster_taste_df = cluster_taste_df.withColumn(
        "taste_percentage",
        spark_round((col("taste_count") / col("total_count")) * 100, 2)
    )
    
    # 找出每个簇最主流的口味
    from pyspark.sql.window import Window
    import pyspark.sql.functions as F
    
    window_spec = Window.partitionBy("cluster").orderBy(desc("taste_count"))
    cluster_taste_df = cluster_taste_df.withColumn(
        "rank",
        F.row_number().over(window_spec)
    )
    
    # 获取每个簇的主流口味（排名第一的）
    main_taste_df = cluster_taste_df.filter(col("rank") == 1) \
        .select("cluster", 
                col("preferred_taste").alias("main_taste"),
                col("taste_percentage").alias("main_taste_percentage"))
    
    # 关联簇描述和主流口味
    final_result = cluster_desc_df.join(main_taste_df, "cluster")
    
    # 添加完整的口味分布描述
    taste_distribution = cluster_taste_df.groupBy("cluster") \
        .agg(
            concat_ws(", ", 
                collect_list(
                    concat_ws(":", col("preferred_taste"), 
                             concat_ws("%", col("taste_percentage"), lit("")))
                )
            ).alias("taste_distribution")
        )
    
    final_result = final_result.join(taste_distribution, "cluster")
    
    # 选择输出字段并排序
    final_result = final_result.select(
        "cluster",
        "cluster_description",
        "user_count",
        "avg_age",
        "main_sleep_cycle",
        "main_exercise_habits",
        "main_climate_zone",
        "main_cuisine_exposure",
        "main_taste",
        "main_taste_percentage",
        "taste_distribution"
    ).orderBy("cluster")
    
    print("\n各簇口味偏好分析结果：")
    final_result.show(K_CLUSTERS, truncate=False)
    
    return final_result