
大数据之Spark
Spark是一个基于内存的快速、通用、可扩展的大数据分析引擎
念达
沸腾的时光怎能被荒芜
展开
-
4)Spark(RDD编程2)
RDD编程2Key-Value类型:partitionBy在这里插入代码片groupByKeyreduceByKey(func, [numTasks])reduceByKey和groupByKey的区别aggregateByKeyfoldByKey案例combineByKey[C]sortByKey([ascending],[numTasks])mapValuesjoin(...原创 2019-10-22 19:53:36 · 275 阅读 · 0 评论 -
3)Spark(RDD编程1)
RDD编程在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在...原创 2019-10-22 16:52:00 · 410 阅读 · 0 评论 -
2)SparkCore(RDD概述)
RDD概述:什么是RDD:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合;RDD的属性:① 一组分区(Partition),即数据集的基本组成单位;② 一个计算每个分区的函数;③ RDD之间的依赖关系;④ 一个Partitioner,即...原创 2019-10-22 14:23:47 · 120 阅读 · 0 评论 -
1)Spark(概述、运行模式)
什么是Spark:Spark是一个基于内存的快速、通用、可扩展的大数据分析引擎;Spark内置模块:SparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义;SparkSQL:是Spark用来操作结构化数...原创 2019-10-21 19:28:59 · 258 阅读 · 0 评论