
Spark
少心
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark之RDD简介
RDDorg.apache.spark.rddClass RDD<T>Objectorg.apache.spark.rdd.RDD<T>All Implemented Interfaces:java.io.Serializable, LoggingDirect Known Subclasses:BaseRRDD, CoGroupedRDD, EdgeRDD,...原创 2019-07-01 20:29:30 · 290 阅读 · 0 评论 -
SparkSession的三种创建方式
/** * 创建SparkSession方式1 */ val sparkSession1 = SparkSession.builder() .appName("SparkSQLDemo") .master("local") .getOrCreate()/** * 创建SparkSession方式2 */ val conf = new SparkCo...原创 2019-07-12 19:06:54 · 13628 阅读 · 1 评论 -
Spark中RDD转换为DataFrame的三种方式
RDD转换为DataFrame原创 2019-07-12 20:30:45 · 1937 阅读 · 0 评论 -
Spark之RDD的glom算子
glom的作用是将同一个分区里的元素合并到一个array里glom属于Transformation算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。原创 2019-07-03 21:27:52 · 5753 阅读 · 1 评论 -
Spark之RDD的mapPartitions算子
mapPartitions作用是通过向这个RDD的每个分区应用一个函数来返回一个新的RDD。源码:f: Iterator[T] => Iterator[U]应用场景:当数据量不太大的时候,可以用mapPartitions,可以提高运行效率当数据量太大的时候,有可能会发生oom举例说明:1.初始化RDD,我们以2个分区的简单RDD如图所示为例2.我们假设需求是将RDD中的元...原创 2019-07-04 10:32:35 · 5306 阅读 · 0 评论 -
RDD的依赖关系(宽依赖和窄依赖)(学习笔记)
RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,例如map、filter、union等操作会产生窄依赖。总结:窄依赖我们形象的比喻为独生子女宽依赖宽依赖指的是多个子RDD的Partition会依赖同...原创 2019-07-13 19:58:35 · 1654 阅读 · 0 评论 -
Spark实现wordCount(Scala版本)
废话不多说直接上代码/** * 初始化 */ val conf = new SparkConf().setAppName("wordCount").setMaster("local[2]") val sc = new SparkContext(conf) val list = sc.makeRDD(List("Lisa Jennie Rosé Ji...原创 2019-07-10 21:53:10 · 498 阅读 · 0 评论 -
kafka.zookeeper.ZooKeeperClientTimeoutException: Timed out waiting for connection ......问题的一种解决情况
出现这种问题,在其他错误都没有的情况下,可能就是版本问题,zookeeper的版本和kafka的libs目录下的zookeeper的jar包版本不一致导致的,更换zookeeper使其版本与kafka的libs是目录下的zookeeper的jar包版本一直,如图版本是3.4.14版本一致,运行成功...原创 2019-07-15 20:34:02 · 23305 阅读 · 8 评论 -
Spark集群的启动流程
创建Master对象,启动一个Master进程。然后,执行preStart生命周期方法,开启一个定时器定期检测超时的worker节点;如果发现超时的Worker节点,则将其移除。执行receive方法,接受其他Actor发送过来的请求解析slaves配置文件,获取到用于启动Worker的节点,启动Worker节点Worker向Master进行注册Master收到注册信息后,把注册信息保存...原创 2019-07-18 15:23:43 · 395 阅读 · 0 评论