spark
YuBx
热爱是藏不住的、
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Streaming之基础知识
Spark Streaming之基础知识一、概叙Spark Streaming是spark的核心API的扩展,用于构建弹性、高吞吐量、容错的在线数据流的流式处理程序数据源多种,可来自kafka、flume、HDFS等数据输出到HDFS、数据库、可视化界面处理的数据是一批,属于微批处理批处理间隔是 Spark Streaming 的核心概念和关键参数,它决定了 Spark Streaming 提交作业的频率和数据处理的延迟,同时也影响着数据处理的吞吐量和性能它提供了一个高级抽象DStream,原创 2020-11-25 17:22:26 · 401 阅读 · 0 评论 -
Spark Sql之基础知识
Spark Sql之基础知识一、Spark SQL概述Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块Spark SQL比Spark core执行效率快,内部做了一些额外的优化Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD,一个是DataFrame,一个是DataSet二、Spark SQL特点易整合:无缝的整合了SQL查询和spark编程统一的数据访问方式:使用相同的方式连接不同的数据源原创 2020-11-20 11:09:37 · 333 阅读 · 0 评论 -
Spark Core之基础知识
Spark Core之基础知识一、RDD概叙RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合二、RDD的五个主要属性多个分区. 分区可以看成是数据集的基本组成单位计算每个切片(分区)的函数与其他 RDD 之间的依赖关系对存储键值对的 RDD, 还有一个可选的分区器存储每个切片优先(preferred location)位置的列表原创 2020-11-17 12:00:23 · 258 阅读 · 0 评论 -
Spark基础知识
Spark基础知识一、Spark概叙spark是一个基于内存计算并且快速、通用、可扩展的集群计算引擎spark目前是Apache最活跃的开源项目二、Spark特点快速性:基于内存计算,比MapReduce快一百倍通用性:提供了大量的类库, 包括 SQL 和 DataFrames, 机器学习(MLlib), 图计算(GraphicX), 实时流处理(Spark Streaming),可以把这些类库无缝的柔和在一个 App 中;它还结合了SQL, Streaming和复杂分析易用性:支持 S原创 2020-11-12 20:45:16 · 249 阅读 · 0 评论
分享