
从了解到掌握 Spark 计算框架
文章平均质量分 95
从 Spark 基础概念开始学习,包括 Spark Core、Spark SQL、Spark Streaming等
月亮给我抄代码
大数据的坑,让我来踩吧!
展开
-
从了解到掌握 Spark 计算框架(二)RDD
RDD(Resilient Distributed Dataset)是 Spark 中的核心数据抽象,代表着分布式的不可变的数据集合。分布式的:RDD 将数据分布存储在集群中的多个计算节点上,每个节点上都存储着数据的一个分区。这样可以实现数据的并行处理和计算。不可变的:RDD 是不可变的数据集合,一旦创建就不能被修改。任何对 RDD 进行的转换操作都会生成一个新的 RDD,原始的 RDD 不受影响。可并行计算的:RDD 支持并行计算,可以在集群中的多个计算节点上同时进行计算。原创 2024-05-30 17:09:14 · 1171 阅读 · 0 评论 -
从了解到掌握 Spark 计算框架(一)Spark 简介与基础概念
Spark 是一个基于内存的分布式计算框架,最初由加州大学伯克利分校的 AMPLab 开发,后来捐赠给了 Apache 软件基金会。它提供了一个高效、通用、可扩展且易用的大数据处理平台,支持各种类型的应用,包括批处理、实时流处理、机器学习和图处理等。原创 2024-05-28 17:22:43 · 2272 阅读 · 0 评论