
Spark
文章平均质量分 86
m0_37559973
这个作者很懒,什么都没留下…
展开
-
Spark-05:Spark 共享变量
共享变量允许在多个任务之间共享数据,而不是为每个任务分别复制一份变量。这样可以显著降低网络传输的开销和内存占用。Spark提供了两种类型的共享变量:广播变量(broadcast variables)和累加器(accumulators)。原创 2023-11-23 17:56:56 · 1504 阅读 · 0 评论 -
Spark-03: Spark SQL 基础编程
Spark SQL是Apache Spark的一个模块,用于处理结构化数据。它提供了两种编程抽象:DataFrame和DataSet,并作为分布式SQL查询引擎。原创 2023-12-05 10:19:30 · 804 阅读 · 0 评论 -
Spark-02: RDD编程基础
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD算子分为转换(Transformation)算子和行动( Action)算子,程序运行到转换算子时并不会马上执行转算子,只有碰到行动算子才会真正执行转换算子。原创 2023-10-11 22:04:17 · 604 阅读 · 0 评论 -
Spark-01: Spark编程基础
Apache Spark是一个通用的、基于内存的分布式计算引擎,用于大规模数据处理。它的核心原理是将数据分散到多台计算机上并在这些计算机上并行执行计算任务,从而实现高效的数据处理和分析。原创 2023-10-10 00:31:37 · 311 阅读 · 0 评论 -
部署Spark-YARN模式
部署Spark-YARN模式原创 2023-10-03 14:31:24 · 902 阅读 · 0 评论 -
搭建环境05:部署Spark-Standalone模式
部署Spark-Standalone模式原创 2023-10-03 13:12:15 · 1745 阅读 · 0 评论