
spark
不想在你心上流浪
大好河山~
展开
-
Spark源码
Spark版本:2.1.xSpark有许多模式,比如standlone 这里分析Spark on yarn 的部署流程。在这种模式中有几个重要的角色我们列出来。Driver、Executor、AM、NM、RM等,我们将在源码中将这几个组件串联起来,分析在Spark on yarn下这几个组件是如何工作的。入口spark-submit 中调用的类为 org.apache.spark.deplo...原创 2020-02-25 15:00:39 · 154 阅读 · 0 评论 -
Spark自定义读hbase数据源
背景我想以简单的形式在Spark中读取Hbase数据,但是Spark并不支持读取Hbase数据。思考能否自己实现这个读取的过程?Hbase的读写API,我们可以查的到。我们是否可以将Hbase数据通过转化,直接转化为DataFrame,方便我们使用。所以,如果可行的话,总体思路可以分为几个步骤。1验证下Spark如何读取数据源,2Hbase的数据结构,3如何转化为Spark的数据结构(DataF...原创 2020-02-11 17:28:38 · 550 阅读 · 0 评论 -
Spark中map与mapPartition使用区别
在日常开发工作中这两个算子都是我们经常使用到的算子介绍map():参数是传入一个函数。当使用时,实际参数经过map(func) 参数func逻辑后返回的数据,组成一个新的RDD。所以,每一行数据都会经过这个函数处理。假设实际数据有M行,则map()方法将会执行M次。mapPartitions():使用方法类似于map(),但是独立的在每一个分区上运行,也就是说,这个方法只会运行与分区数相同的...原创 2020-01-28 17:00:41 · 1139 阅读 · 0 评论