【大数据毕设源码】基于机器学习+spark的膳食时间成本聚类分析与营养评估系统-基于多维分析的健康饮食推荐与可视化系统设计-优快云博客

注意：该项目只展示部分功能，如需了解，文末咨询即可。

本文目录

1 开发环境
2 系统设计
3 系统展示
3.1 功能展示视频
3.2 大屏页面
3.3 分析页面
3.4 基础页面

4 更多推荐
5 部分功能代码

1 开发环境

发语言：python
采用技术：Spark、Hadoop、Django、Vue、Echarts等技术框架
数据库：MySQL
开发环境：PyCharm

2 系统设计

随着社会经济的发展和生活水平的提高，公众对健康饮食的关注度达到了前所未有的高度。然而，在信息爆炸的时代，人们面临着海量但良莠不齐的营养知识，难以形成科学、个性化的饮食决策。同时，快节奏的现代生活使得大众在追求健康与时间效率之间难以平衡。因此，如何利用大数据技术对庞杂的膳食数据进行深度挖掘，提炼出清晰、实用、具有指导意义的健康饮食规律，并以直观、友好的方式呈现给用户，已成为一个具有重要现实意义和应用价值的课题。本系统正是在此背景下，旨在构建一个集数据分析与交互式可视化于一体的健康饮食营养数据分析平台，它通过对包含全球菜系、烹饪方式和多种饮食模式的膳食数据进行多维度、系统性的分析，不仅为个人用户提供了科学的饮食选择依据和高效的健康餐方案，也为公共健康研究、餐饮行业菜品优化提供了数据驱动的决策支持，对于推动全民健康意识和科学饮食习惯的普及具有积极的促进作用。系统的核心功能模块严格按照需求分析进行设计，确保了分析的深度与广度。

1.数据预处理模块：此模块是所有分析的基础。主要功能包括对数据集进行自动化清洗，如对数值型字段空值填充、对分类字段（如菜系、烹饪方式）进行中英文映射、对布尔型字段（如is_healthy）进行可读性转换，并利用Spark DataFrame的特性确保各字段数据类型正确，为后续所有分析模块提供标准、干净的数据源。

2.膳食营养全景分析模块：该模块从宏观视角对膳食营养进行全面分析。实现了对卡路里、蛋白质等核心营养素的分布统计与关联性分析（通过皮尔逊相关系数）；通过分组对比，量化了“健康”与“不健康”膳食在关键营养指标上的差异；同时，还实现了对“三高”（高糖、高钠、高胆固醇）膳食的特征画像分析，以及对不同饮食模式（如生酮、均衡）下三大宏量营养素供能比的深度剖析。

3.烹饪方式与饮食健康关联分析模块：此模块旨在探究烹饪方法对健康的影响。通过对不同烹饪方式下的健康膳食比例、平均热量、脂肪和钠含量的计算，评估各类烹饪方法的健康水平。此外，还分析了主要烹饪方式的总耗时，为用户在健康与效率之间做出权衡提供参考。

4.全球菜系与饮食类型特色分析模块：该模块从文化与理念两个维度挖掘饮食特点。通过构建不同饮食类型的“营养画像”，揭示其营养侧重；通过分析不同菜系的营养构成、用户评分与健康度，展现世界各地饮食文化的特色。同时，通过交叉分析，探究特定菜系与饮食理念的结合趋势，为有特殊饮食需求的用户提供推荐。

5.膳食时间成本与效率分析模块：此模块重点关注膳食准备的便捷性。它不仅分析了不同餐食类型（早、午、晚餐）的平均营养与耗时，更通过聚类分析挖掘出“快手健康餐”的共同特征（如常用烹饪方式、菜系来源），并利用K-Means算法对膳食的准备与烹饪时间进行聚类，以发现典型的备餐模式。

3 系统展示

3.1 功能展示视频

基于hadoop+spark大数据的健康饮食营养数据分析系统！！！请点击这里查看功能演示！！！

3.2 大屏页面

在这里插入图片描述

3.3 分析页面

在这里插入图片描述

3.4 基础页面

在这里插入图片描述

5 部分功能代码

from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans
from pyspark.sql.functions import col, avg as spark_avg, create_map, lit
from itertools import chain
def meal_time_complexity_clustering_analysis(input_df):
    """
    4.3 膳食准备时间与烹饪时间聚类分析核心模块
    本函数利用K-Means聚类算法，根据膳食的“准备时间”和“烹饪时间”，
    将所有膳食自动划分为不同的时间成本模式，并为这些模式赋予可读的标签。
    参数:
        input_df (pyspark.sql.DataFrame): 经过预处理的、包含'prep_time_min'和'cook_time_min'字段的Spark DataFrame。
    返回:
        pyspark.sql.DataFrame: 包含聚类结果和模式标签的DataFrame。
    """
    # 步骤1: 特征工程 - 将需要聚类的字段组合成一个特征向量
    # K-Means算法要求输入为向量形式，我们在此将准备时间和烹饪时间合并为'features'列。
    feature_assembler = VectorAssembler(
        inputCols=["prep_time_min", "cook_time_min"],
        outputCol="features"
    )
    df_with_features = feature_assembler.transform(input_df)
    # 步骤2: 特征标准化 (可选但推荐)
    # 由于不同特征的数值范围可能差异很大，标准化可以帮助K-Means算法更好地度量距离，避免结果偏向数值较大的特征。
    scaler = StandardScaler(inputCol="features", outputCol="scaled_features", withStd=True, withMean=False)
    scaler_model = scaler.fit(df_with_features)
    df_scaled = scaler_model.transform(df_with_features)
    # 步骤3: 初始化并训练K-Means模型
    # 我们设定k=4，意图将膳食划分为四种典型的时间成本模式。
    # 例如："快速准备-快速烹饪", "慢速准备-快速烹饪", "快速准备-慢速烹饪", "慢速准备-慢速烹饪"
    # 设置seed以确保每次运行结果可复现。
    kmeans = KMeans(featuresCol="scaled_features", k=4, seed=1)
    model = kmeans.fit(df_scaled)
    # 步骤4: 进行预测，为每条膳食数据打上簇标签
    # transform方法会为DataFrame新增一列'prediction'，其值为0, 1, 2, 3，代表该条数据所属的簇ID。
    predictions_df = model.transform(df_scaled)
    # 步骤5: 解释聚类结果，为每个簇赋予有意义的标签
    # 计算每个簇（prediction）的平均准备时间和平均烹饪时间，以理解每个簇的特征。
    cluster_summary = predictions_df.groupBy("prediction").agg(
        spark_avg("prep_time_min").alias("avg_prep_time"),
        spark_avg("cook_time_min").alias("avg_cook_time")
    ).orderBy("prediction").collect()
    # 根据平均时间为每个簇定义标签。例如，双低（两个平均时间都低）的簇可定义为“高效简餐型”。
    # 这里是一个简化的逻辑，可以根据实际均值进行更精细的定义。
    # 为了演示，我们简单地按总时间排序来命名。
    sorted_clusters = sorted(cluster_summary, key=lambda r: r.avg_prep_time + r.avg_cook_time)
    label_map = {
        sorted_clusters[0]['prediction']: "高效简餐型",  # 总时间最短
        sorted_clusters[1]['prediction']: "常规烹饪型",
        sorted_clusters[2]['prediction']: "精心准备型",
        sorted_clusters[3]['prediction']: "慢工细活型"   # 总时间最长
    }
    
    # 步骤6: 将数字标签映射为可读的中文标签
    # 使用create_map函数高效地在Spark DataFrame中添加新列。
    mapping_expr = create_map([lit(x) for x in chain(*label_map.items())])
    result_df = predictions_df.withColumn("time_complexity_pattern", mapping_expr[col("prediction")])
    # 步骤7: 选择并返回最终结果列
    # 返回包含核心信息的DataFrame，便于后续展示和分析。
    return result_df.select(
        "meal_id",
        "meal_name",
        "prep_time_min",
        "cook_time_min",
        "prediction",
        "time_complexity_pattern"
    )