- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 YARN原理与架构
ResourceManager会根据ApplicationMaster汇报的心跳报告来动态分配容器(Container),为ApplicationMaster绑定包含一定数量的容器(Container)的租约,ApplicationMaster会根据其自身的执行计划来适应容器(Container)的不足或过剩,同样也会动态的申请或释放容器(Container)。据Hadoop官网介绍,YARN的基本设计思路是将集群资源管理系统划分为多个相互独立的更小规模的功能组件,分别交由相互独立的守护进程进行管理。
2024-08-13 22:40:30
3522
原创 Spark作业提交
角色作用Master管理集群和节点,不参与计算。Driver一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的入口点。负责向集群申请资源,向master注册信息,负责了作业的调度,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。Woker主要功能:管理当前节点内存,CPU的使用状况,
2024-08-11 23:51:02
1115
原创 Spark基础
1. rdd分布式弹性数据集,简单的理解成⼀种数据结构,是spark框架上的通⽤货币。所有算⼦都是基于rdd来执⾏的,不同的场景会有不同的rdd实现类,但是都可以进⾏互相转换。rdd执⾏过程中会形成dag图,然后形成lineage血缘关系保证容错性等。从物理的⾓度来看rdd存储的是block和node之间的映射。2. RDD是spark提供的核⼼抽象,全称为弹性分布式数据集。3. RDD在逻辑上是⼀个hdfs⽂件,在抽象上是⼀种元素集合,包含了数据。
2024-08-11 21:32:21
1193
原创 Spark内存模型
Spark 内存管理分为静态内存管理和统一内存管理,在 Spark 1.6 之前是采用的静态内存,之后的版本都是采用统一内存管理,与静态内存管理的区别在于 Storeage 内存和 Execution 内存共享统一块空间,可以动态占用对方的空闲区域。
2024-08-11 21:06:35
1741
原创 二叉树基本操作
记录二叉树基本操作2.二叉树构建根据层序遍历的结果构建满二叉树三种遍历方式中,只有更根节点输出的位置不同非递归方式中,使用到了栈结构,先将根节点压栈。后续遍历栈,pop节点后输出,之后先压入右节点,在压入左节点。判断是否是镜像二叉树。从根节点开始,判断左右两个子树。左子树的左节点 == 右子树的右节点 && 左子树的右节点 == 右子树的左节点。递归出口
2023-11-19 16:39:20
64
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人