
Spark
文章平均质量分 74
内存计算
小刘新鲜事儿
这个作者很懒,什么都没留下…
展开
-
Spark SQL Catalyst工作流程
比如join 算子,Spark根据不同场景为该算子制定了不同的算法策略,有 BroadcastHashJoin、ShuffleHashJoin 以及 SortMergejoin 等,**物理执行计划实际上就是在这些具体实现中挑选一个耗时最小的算法实现。RDD的运行流程:RDD-> DAGScheduler -> TaskScheduler -> worker,任务会按照编写的代码运行,代码运行效率依赖于开发者的优化,开发者会在很大程度上影响运行效率。就是提前将需要的列查询出来,其他不需要的列裁剪掉。原创 2024-08-10 16:43:15 · 1146 阅读 · 0 评论 -
Spark任务提交流程
Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯,申请启动ApplicationMaster;随后ResourceManager分配Container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster的功能相当于一个ExecutorLaucher(加载器),只负责向ResourceManager申请Executor内存;原创 2023-05-06 15:43:04 · 624 阅读 · 0 评论 -
Spark任务执行流程
Driver启动,创建SparkContextSparkContext 向资源管理器注册,并向资源管理器申请运行 Executor资源管理器分配启动 Executor 所需的资源,然后资源管理器启动 ExecutorExecutor 发送心跳至资源管理器Executor 向 SparkContext 注册自己,并向 SparkContext 申请 Task,等待 Task 提交SparkContext 构建 DAG 有向无环图将 DAG 分解成 Stage(TaskSet)把 Stage原创 2023-05-03 17:16:18 · 2365 阅读 · 0 评论