Spark RDD经典基础面试题
面试基础题
- SparkContext哪一端创建的的?
Driver端 - DAG是在哪一端被构建的?
Driver端 - RDD是在哪一端生成的?
Driver端 - 调用RDD的算子(Transformation和Action)是在哪一端调用的
Driver端 - RDD在调用Transformation和Action时需要传入函数,函数是在哪一端声明【定义】和传入的?
Driver端 - RDD在调用Transformation和Action时需要传入函数,请问传入的函数是在哪一端执行了函数的业务逻辑?
Executor - Task是在哪一端生成的呢?
Driver端 - DAG是在哪一端构建好的并被切分成一到多个Stage的
Driver端 - DAG是哪个类完成的切分Stage的功能?
DAGScheduler - DAGScheduler将切分好的Task以什么样的形式给TaskScheduler
TaskSet - 自定义的分区器这个类是在哪一端实例化的?
Driver端 - 分区器中的getParitition方法在哪一端调用的呢?
Executor - 广播变量是在哪一端调用的方法进行广播的?
Driver端 - 要广播的数据应该在哪一端先创建好再广播呢?
Driver端 - 广播变量以后能修改吗?
不能 - 广播变量广播到Executor后,一个Executor进程中有几份广播变量的数据
一个 - 累加器事先在哪一端创建的
Driver端 - 累加器事先在哪一端累加的
Executor - shuffle算子是否一定会触发shuffle
不会,需

本文主要探讨Spark RDD在面试中常见的基础问题,包括SparkContext、DAG、RDD、Transformation和Action的创建及执行位置。关键点在于理解大部分操作在Driver端定义,而Executor端执行具体任务。此外,还涉及分区器、广播变量和累加器的使用与特性。
最低0.47元/天 解锁文章
799

被折叠的 条评论
为什么被折叠?



