
spark
文章平均质量分 90
LivinQ
大数据厂工
展开
-
Spark小笔记-shuffle小解
1、shuffle 原理shuffle很昂贵序列化 cpu 跨节点 网络IO 磁盘读写 文件IOshuffle 操作repartition *ByKey() join & cogroup2、shuffle介绍Hash Shuffle V1缺点:一个MapTask对应 R 个bucket,会产生巨量文件(M * R) reduce端使用hashtable存放ShuffleRead的数据,容易OOMHash Shuffle V2缺点:..原创 2022-05-02 13:31:46 · 1336 阅读 · 0 评论 -
Spark-Yarn任务提交流程解析
一、SparkSubmitbin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--d原创 2022-04-28 17:26:17 · 2543 阅读 · 0 评论 -
Spark小笔记-RDD一些重要的事
1、RDD的核心属性分区列表RDD数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。分区计算函数Spark在计算时,是使用分区函数对每一个分区进行计算RDD之间的依赖关系RDD是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个RDD建立依赖关系分区器(可选)当数据为KV类型数据时,可以通过设定分区器自定义数据的分区首选位置(可选)计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算2、RDD序列...原创 2022-04-23 17:42:20 · 1803 阅读 · 0 评论 -
Spark小笔记-切片逻辑
1、内存数据的切片逻辑val conf = new SparkConf().setMaster("local[*]").setAppName("RDD")conf.set("spark.default.parallelism", "4")val sc = new SparkContext(conf)val rdd1 : RDD[Int] = sc.makeRDD(Seq(1,2,3,4,5), 3)rdd1.saveAsTextFile("output")sc.stop()源码跟进原创 2022-04-20 18:38:28 · 2190 阅读 · 1 评论