Spark分区数、task数目、core数目、worker节点数目、executor数目梳理
spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。
步骤组成任务、数据组成任务。所以数据和对数据的操作都封装在任务里面了?数据是分布的,那么步骤的执行是什么过程?因为是流水线操作,所以对于每一个工作节点,都有一份步骤,然后根据步骤一步步计算???
Spark文档中使用驱动器节点和执行器节点的概念来描述执行Spark的进程
主节点(master)和工作节点(worker)的概念被用来分别表述集群管理器中的中心化部分和分布式部分。
输入以多个文件的形式存储在HDFS上,每个File都包含了很多块,成为Block
如果输入只有一个文件存储在Hbase里,也是按块大小分布存储的吗?
以块形式存储的文件可以跨节点嘛?
Spark读取文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并为一个输入分片,成为InputSplit。InputSplit不能跨文件。
随后为这些输入分片生成具体的Task</