
spark
Imflash
分享知识,分享快乐
展开
-
Spark篇
问题1、spark-submit几种提交模式的 区别是什么?问题2、spark streming在实时处理时会发生什么故障,如何停止,解决问题3、spark工作机制问题4、Kafka和sparkStreaming的整合,手动提交的offset调用了什么方法?问题5、spark-yarn程序的的调度流程问题6、Scala中协变逆变的应用场景。问题7、Spark中隐式转化的应用场景问题8...原创 2019-10-08 21:21:40 · 426 阅读 · 0 评论 -
sparkCore
SparkCore讲解1、RDD基本概念1.1、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:一个数据集合,用于存放数据的。 Distributed:RDD中的数据是分布式存储的,可用于分布式计算。 Resilien...原创 2019-10-24 21:35:13 · 735 阅读 · 0 评论 -
spark的shuffle和原理分析
spark的shuffle和原理分析1 、概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O...原创 2019-10-24 21:22:42 · 479 阅读 · 0 评论 -
spark性能优化
1、分配更多的资源1.1、分配哪些资源executor-memory、executor-cores、num-executor1.2、在哪里设置这些资源在生成环境中,提交spark任务时,使用spark-submit shell脚本,可以调整对应的参数提交任务的脚本spark-submit \--master saprk://node01:7077 \--class cn.tuy...原创 2019-10-23 21:33:22 · 574 阅读 · 0 评论 -
spark数据倾斜情况与解决代码
出现数据倾斜的六种情况1、shuffle的时候,如果这个产生shuffle的字段为空,会出现数据倾斜2、key有很多,分区数设置的过少,导致很多key聚集在一个分区出现数据倾斜3、当某一个表中某一个key数据特别多,然后使用group by 就会出现数据倾斜4、大表 join 小表 ,这两个表中某一个表有某一个key或者某几个key数据比较多,会出现数据倾斜5、大表 join 大表,其...原创 2019-10-23 19:12:56 · 1001 阅读 · 0 评论