Spark理论

本文深入探讨了Spark的关键概念,包括RDD、DAG、Executor等,解析了Spark的架构设计,从应用程序提交到任务执行的全过程,以及SparkContext的重要作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Spark的相关概念

1、RDD

RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限(即只读)的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如读文件是一个RDD,对文件计算是一个RDD,结果集也是一个RDD ,不同的分片、 数据之间的依赖 、key-value类型的map数据都可以看做RDD。

2、DAG

DAG(Directed Acyclic Graph),意思是有向无环图,所谓有向无环图是指任意一条边有方向,且不存在环路的图。

把数据放入Spark的内存,然后生成一个RDD,不同RDD之间可以构成多个DAG.

3、Executor

Executor是一个进程,是运行在相关的工作节点上,派生出许多线程,由线程再去执行具体的任务

4、Application

 

Application也叫Spark应用程序,它会被分解成一个个任务,任务是运行在Executor的进程上的工作单元,Executor派生出许多线程,不同线程去执行不同让任务

5、作业(Job)

一个应用程序执行时会生成若干作业,每个作业会被切成很多的任务子集,每个任务子集就是一个阶段

6、阶段(Stage)

阶段是作业调度的基本单位,一个作业按照算法分成不同阶段,一个阶段就是若干任务的集合,然后把任务分发到不同节点(机器)去执行。

二、Spark架构设计

1、Spark运行架构

2、Spark的概念之间的关系

一个应用程序执行时会生成若干作业,一个作业被切分成不同阶段,一个阶段就是若干任务的集合,然后把任务分发到不同节点(机器、Worker Node)去执行。

返回结果(返回给Driver或HDFS或Hbase)

3、Spark基本运行流程

步骤:

1.应用程序提交到Driver(指挥所),Driver会产生一个SparkContext(指挥官)

2.SparkContext负责作业的调度,作业分解成不同阶段,再将不同阶段的若干任务的执行结果进行汇总

3.最后再返回给用户

4、SparkContext的作用

 

将DAG图提交DAG Scheduler进行解析,它负责把整个DAG图切成若干不同的阶段。

 每个阶段包含若干任务 。

 

 

1. 用户与身体信息管理模块 用户信息管理: 注册登录:支持手机号 / 邮箱注册,密码加密存储,提供第三方快捷登录(模拟) 个人资料:记录基本信息(姓名、年龄、性别、身高、体重、职业) 健康目标:用户设置目标(如 “减重 5kg”“增肌”“维持健康”)及期望周期 身体状态跟踪: 体重记录:定期录入体重数据,生成体重变化曲线(折线图) 身体指标:记录 BMI(自动计算)、体脂率(可选)、基础代谢率(根据身高体重估算) 健康状况:用户可填写特殊情况(如糖尿病、过敏食物、素食偏好),系统据此调整推荐 2. 膳食记录与食物数据库模块 食物数据库: 基础信息:包含常见食物(如米饭、鸡蛋、牛肉)的名称、类别(主食 / 肉类 / 蔬菜等)、每份重量 营养成分:记录每 100g 食物的热量(kcal)、蛋白质、脂肪、碳水化合物、维生素、矿物质含量 数据库维护:管理员可添加新食物、更新营养数据,支持按名称 / 类别检索 膳食记录功能: 快速记录:用户选择食物、输入食用量(克 / 份),系统自动计算摄入的营养成分 餐次分类:按早餐 / 午餐 / 晚餐 / 加餐分类记录,支持上传餐食照片(可选) 批量操作:提供常见套餐模板(如 “三明治 + 牛奶”),一键添加到记录 历史记录:按日期查看过往膳食记录,支持编辑 / 删除错误记录 3. 营养分析模块 每日营养摄入分析: 核心指标计算:统计当日摄入的总热量、蛋白质 / 脂肪 / 碳水化合物占比(按每日推荐量对比) 微量营养素分析:检查维生素(如维生素 C、钙、铁)的摄入是否达标 平衡评估:生成 “营养平衡度” 评分(0-100 分),指出摄入过剩或不足的营养素 趋势分析: 周 / 月营养趋势:用折线图展示近 7 天 / 30 天的热量、三大营养素摄入变化 对比分析:将实际摄入与推荐量对比(如 “蛋白质摄入仅达到推荐量的 70%”) 目标达成率:针对健
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值