
Spark
猫猫爱弹琴
这个作者很懒,什么都没留下…
展开
-
Spark系列02,IDEA中创建Maven聚合项目
Maven聚合工程优点Maven的聚合工程就是在一个父模块的Pom.xml文件中引入所有工程需要的Maven依赖,在不同的子模块的Pom.xml中就可以直接继承父类中存在的Maven依赖而不需要重新引入。这样符合模块化开发的要求,更容易管理各个模块的Maven依赖,可以避免重复使得项目更加安全。Maven聚合工程实例创建一个聚合项目包含三个模块:父模块、Spark-core模块、Spark-...原创 2019-06-25 09:32:04 · 496 阅读 · 0 评论 -
Spark系列03,Spark主要算子以及reduceByKey、combineByKey和groupBy详解
1. SparkRDD的操作 Spark RDD的操作,便是对RDD的转换执行操作。从上图我们可以总结出,sparkRDD的操作,从宏观上分为:Transformation和Action,但是具体的还以分为输入算子、变换算子、缓存算子,以及行动算子。1.2. Transformation1.2.1. flatMap 是Spark RDD中的转换算子,对RDD中的每一个元素都执行...原创 2019-06-25 10:18:59 · 769 阅读 · 0 评论 -
Spark系列01,Spark简介、安装、相关名词解释
Spark系列01,Spark简介、相关名词解释以及Spark聚合项目创建导论Spark 概述Spark集群的安装本地提交一个Spark的作业导论Spark 概述Spark就是一款全栈的计算引擎,底层基于RDD(弹性式分布式数据集 Resilient Distributed Dataset),主要是基于内存的计算,官网号称基于磁盘比mr快10倍,基于内存比mr块100倍。具有高速、易用、通...原创 2019-06-24 20:56:52 · 735 阅读 · 0 评论 -
Spark系列04,广播变量和累加器的使用以及常见Java关键字
1. 共享变量1.1. 概述 所谓共享变量,是为了解决task中使用到外部变量造成相关问题而出现的。spark提供了有限的两种共享变量:广播变量Broadcast变量和累加器Accumulator。1.2. Broadcast1.2.1. 使用说明 使用的话,非常简单,只需要将普通的变量包装为Broadcast即可。 val xxBC:Broadcast[T] = sc.bro...原创 2019-06-28 09:02:37 · 365 阅读 · 0 评论 -
Spark系列05,SparkSQL概念及相关操作
1. SparkSQL简介 SparkSQL,可以简单的理解为Spark生态体系中用于处理结构化数据的模块。1.1. 特点可集成统一的访问数据方式集成Hive操作提供标准的jdbc/odbc的数据库连接方式1.2. 参考网址https://www.cnblogs.com/BYRans/p/5057110.html官网:http://spark.apache....原创 2019-07-01 09:37:28 · 267 阅读 · 0 评论