Spark
文章平均质量分 96
介绍Spark相关内容
夜夜流光相皎洁_小宁
九零后技术大叔,从事信息安全行业,架构师,JavaWeb、大数据、移动应用开发,关注移动应用安全、大数据安全、云原生安全、网络安全渗透、攻防等领域;喜欢交流和分享,喜欢读书,什么书都会读一读,比较杂;闲暇时间喜欢做技术总结,喜欢探索技术、解锁新技能。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 分布式弹性计算集(RDD)相关概念介绍
RDD是 Spark 中最基本的数据抽象,代表一个不可变、可分区、元素可并行计算的集合。RDD具有自动容错、位置感知性调度和可伸缩等特点。RDD 允许用户在执行多个查询时显式地将数据集缓存在内存中,后续查询能够重用该数据集,这极大地提升了查询效率。Spark 可以跨节点在内存中持久化 RDD。当持久化 RDD时,每个节点都会在内存中缓存计算后的分区数据,当其他操作需要使用该 RDD 时,可以直接重用该缓存数据,这使得之后的 RDD 计算速度更快(通常超过10倍)。缓存是选代计算和交式计算的关键。原创 2024-07-08 10:05:46 · 1297 阅读 · 1 评论 -
Apache Spark分布式计算框架架构介绍
Spark 基于 Spark Core 建立了 Spark SQL、Spark Streaming、MLlib、GraphX、SparkR 核心组件,基于不同组件可以实现不同的计算任务,这些计算任务的运行模式有:本地模式、独立模式(Standalone)、Mesos 模式、 YARN 模式。Spark 任务的计算可以从 HDFS、S3、Hypertable、HBase或Cassandra等多种数据源中存取数据。原创 2024-07-08 09:57:31 · 3090 阅读 · 1 评论 -
业界数据架构的演变
近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等,伴随这些技术的发展与普及,促使企业数据架构的演进——从传统的关系型数据存储架构逐步演化为分布式处理和存储的架构。我们通过数据架构的演变角度来了解下为什么今天Flink实时计算引擎会爆火起来。原创 2024-07-05 09:44:54 · 1309 阅读 · 2 评论 -
基于Spark3.3.4版本,实现Standalone 模式高可用集群部署
在早期大数据处理中,我们会选择使用MapReduce分析处理海量数据,MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题,Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题,Apache Spark是新一代的大数据计算框架,支持针对批量数据及流式数据进行处理,在数据处理上相对比MapReduce性能上提升很多,不仅编程方便还支持SQL处理数据、流式编程等。今天我就来带大家基于Spark3.3.4版本,实现Standalone 模式高可用集群部署。原创 2024-06-18 14:20:21 · 1807 阅读 · 2 评论 -
基于Spark3.3.4版本,实现Spark On Yarn 模式部署
企业中的海量数据都会使用大数据相关计算框架进行分析处理,在早期大数据处理中,我们会选择使用MapReduce分析处理海量数据,MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题,Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题,Apache Spark是新一代的大数据计算框架,支持针对批量数据及流式数据进行处理,在数据处理上相对比MapReduce性能上提升很多,不仅编程方便还支持SQL处理数据、流式编程等。原创 2024-06-17 12:06:18 · 1562 阅读 · 2 评论
分享