spark
文章平均质量分 96
spark是基于内存的快速、通用、可扩展的大数据分析计算引擎。它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。
被数据处理的蜗牛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
07-SparkStreaming
07-Spark Streaming 1.目标 掌握spark Streaming的原理和架构 掌握DStream的相关操作 实现spark Streaming与flume整合 实现spark Streaming与kafaka整合 2.spark Streaming介绍 2.1.什么是spark Streaming spark Streaming类似于Apache Storm,用于流式数据处理。根据官方文档介绍,spark Streaming有高吞吐量和容错能力强等特点。 spark S原创 2022-03-22 16:11:36 · 2452 阅读 · 0 评论 -
06-SparkSQL
1.spark sql 1.1.spark sql概述 官网地址:http://spark.apache.org/sql/ 1.1.1.什么是spark sql spark sql是spark用来处理结构化数据的一个模块,它提供了一个编程抽象DataFrame,作为分布式SQL查询的引擎,它是将spark sql转换成RDD,然后提交到集群中去运行,执行效率非常快。支持多种使用方式:SQL、DataFrame API、DataSet API。 相比于spark RDD API,spark sql包含了对结原创 2022-03-18 10:58:25 · 4371 阅读 · 0 评论 -
05-SparkRDD原理和编程接口
1.弹性分布式数据集RDD 1.1.RDD概述 1.1.1.什么是RDD RDD(Resilient Distributed DataSet)弹性分布式数据集。是spark中最基本的数据抽象,是一个不可变的、可分区的、可并行计算的集合。 Resilient:数据可以选择性的存储在内存中,或者磁盘中 Distributed:分布式存储、分布式计算 DataSet:用于存放数据的数据集合 1.1.2.RDD的属性 A list of partitions:分区列表,数据集基本组成单位 说明:每个分区对应一个原创 2022-03-18 10:16:25 · 863 阅读 · 0 评论 -
04-Spark入门
04-Spark入 熟悉spark相关概念 搭建spark集群 编写简单的spark应用程序 2.spark概述 2.1.什么是spark spark是基于内存的快速、通用、可扩展的大数据分析计算引擎。它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。 2.2.为什么要学习spark 运行速度比mapred uce快很多 2.3.spark特点 速度快(比mapreduce在内存中快100倍,在磁盘中快10倍) spark中的job中间结果可以不落地,原创 2022-03-01 21:02:36 · 2108 阅读 · 0 评论
分享