
spark
正经黑天鹅
这个作者很懒,什么都没留下…
展开
-
Spark Core 基础
我使用的Hadoop是cdh版本的,官网的spark二进制文件使用的是Apache版本的,所以必须要重新编译过的。一、编译 前期准备: - java 1.8 - maven 3.3.9 - scala 2.11 - spark-2.3.1.src.tgz 由于我用的是cdh版本的hadoop,所以在spark源码包的pom.xml中加入&amp原创 2018-08-28 23:32:55 · 267 阅读 · 0 评论 -
spark 算子
什么是spark算子?可以理解成spark RDD的方法,这些方法作用于RDD的每一个partition。 因为spark的RDD是一个 lazy的计算过程,只有得到特定触发才会进行计算,否则不会产生任何结果。大体上分:Transformation 变换/转换算子,不触发执行Action 行动算子,立马触发执行常用算子一、map二、reduce三、二、red...原创 2018-09-01 16:23:10 · 1250 阅读 · 0 评论 -
Spark SQL 基础
一、为什么要用SQL 为什么大数据需要SQL。为什么SQL已经诞生这么长时间还在使用。为什么说一个框架不能落地到SQL上就不是一个好的框架。其实这个和SQL有关。SQL是用来统计数据信息的一种方式。比如统计一个班有多少男生,多少人上课迟到。大数据也需要处理这些统计信息,所以需要SQL。MySQL,Oracle等都是单机文件存储,因为数据量逐渐变大,性能跟不上,所以云化成大数据,以前的业务...原创 2018-11-25 21:14:13 · 4452 阅读 · 0 评论 -
Spark Streaming - 基础
一、概述 Spark Streaming是Spark对流式的计算框架,严格意义上说其实并不是真正实时性很高的流式计算,而是以时间片作为批次进行计算。Spark Streaming底层是以Spark Core为基础。 如上图所示,Spark Sreaming 是将流切分成一个一个的批次(batches),然后以批次为单位处理并输出。 Spark Core是以RDD为编程基础,Spark...原创 2018-12-29 21:55:46 · 407 阅读 · 0 评论