
Spark
文章平均质量分 96
天冬忘忧
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark优化----Spark 数据倾斜
Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题,是由于不同的 key对应的数据量不同导致的不同 task 所处理的数据量不同的问题。原创 2024-12-17 20:23:54 · 1330 阅读 · 0 评论 -
Spark优化----Spark 性能调优
本文介绍了Spark的常规性能调优;算子调优;Shuffle调优;JVM调优原创 2024-12-17 14:34:29 · 2717 阅读 · 0 评论 -
SparkSQL 读写数据攻略:从基础到实战
在大数据处理领域,SparkSQL 以其强大的数据处理能力和丰富的数据源支持备受青睐。它能够高效地读取和写入多种格式的数据,无论是本地文件、分布式文件系统(如 HDFS)上的数据,还是数据库、Hive 表中的数据,都能轻松驾驭。今天,就让我们深入探究 SparkSQL 读写数据的方式,通过详细的代码示例和原理讲解,助你全面掌握这一关键技能。原创 2024-12-08 19:42:25 · 1667 阅读 · 0 评论 -
SparkSQL 中 DataFrame 的转换
在大数据处理领域,SparkSQL 凭借其强大的数据处理能力和高效的计算性能备受青睐。其中,DataFrame 作为重要的数据结构,掌握它与其他数据类型(如 RDD、DataSet)之间的转换操作至关重要。今天,我们就深入探讨在 Spark 中如何进行 DataFrame 的转换,帮助大家更好地驾驭 SparkSQL 处理各类数据场景。原创 2024-12-08 19:28:40 · 1393 阅读 · 0 评论 -
深入解析 SparkSQL:从基础到实践与优化
在大数据处理领域,Spark 作为一款强大的开源分布式计算框架,占据着举足轻重的地位。而 SparkSQL 作为 Spark 生态系统中专门针对结构化数据计算设计的关键模块,更是广泛应用于各类数据处理场景,无论是离线数据分析、实时流计算,还是机器学习任务前的数据预处理等环节,都发挥着不可替代的作用。本文将带大家全面认识 SparkSQL,从其基本概念、技术由来,到编程实战以及优化技巧,一步步揭开它的神秘面纱原创 2024-12-06 18:37:26 · 1428 阅读 · 0 评论 -
深入理解 Spark 中的 Shuffle
在 Spark 的大数据处理世界里,Shuffle 是一个极为关键的概念。它在处理分布式大数据量的全局分组、全局排序以及重新分区等任务时起着核心作用。本文将深入探讨 Spark 中的 Shuffle,包括其设计理念、产生 Shuffle 的算子、不同类型的 Shuffle 及其特点、优化以及相关的钨丝计划等内容。原创 2024-11-13 10:48:27 · 1450 阅读 · 0 评论 -
Spark 核心概念与宽窄依赖的详细解析
通过对 Spark 中的 ClusterManager、Worker、Application、Driver、Executor、Job、Stage、Task 等核心概念的详细解析,以及对 Spark 应用提交流程和宽窄依赖特性的深入探讨,我们可以看到 Spark 构建了一个复杂而高效的分布式计算框架。理解这些概念和机制对于正确使用 Spark 进行大数据处理至关重要。原创 2024-11-12 16:20:21 · 1281 阅读 · 0 评论 -
Spark 共享变量:广播变量与累加器解析
在 Spark 大数据处理框架中,共享变量是一个非常重要的概念。当我们处理一些涉及到不同计算节点(Executor)需要访问相同数据的场景时,共享变量就发挥了关键作用。本文将深入探讨 Spark 中的广播变量和累加器,包括它们的使用场景、原理以及如何在实际代码中应用。原创 2024-11-11 20:11:53 · 1498 阅读 · 0 评论 -
Spark 的容错机制:保障数据处理的稳定性与高效性
在大数据处理领域,Spark 作为一款强大的分布式计算框架,面临着数据丢失和性能优化的双重挑战。为了确保数据的安全性和处理效率,Spark 构建了一套完善的容错机制。本文将深入探讨 Spark 的容错机制,包括 RDD 的持久化机制(persist 和 cache 算子)以及检查点机制(checkpoint),并分析它们的特点、适用场景以及相互之间的区别。原创 2024-11-11 11:30:24 · 1766 阅读 · 0 评论 -
PySpark 数据处理实战:从基础操作到案例分析
本文将通过三个案例,我们详细展示了 PySpark 在不同数据处理场景下的应用。从手机号码流量统计到合同数据分析,再到日志分析,涵盖了数据过滤、映射、分组求和、排序以及特定数据统计等常见操作。同时,也指出了在实际运行代码过程中可能遇到的错误及解决方法。希望读者能够通过这些案例,深入理解 PySpark 的使用技巧,在大数据处理工作中更加得心应手。原创 2024-11-10 07:00:00 · 2722 阅读 · 0 评论 -
RDD 算子全面解析:从基础到进阶与面试要点
在大数据处理领域,Spark 中的 RDD(弹性分布式数据集)是核心概念之一。RDD 算子则是对 RDD 进行操作的关键工具,它们决定了数据的处理方式和流程。深入理解 RDD 算子对于高效地使用 Spark 处理大规模数据至关重要。本文将详细介绍 RDD 的常用基础算子,包括算子的分类、功能、代码示例、常见问题以及面试相关要点。原创 2024-11-09 09:31:27 · 1620 阅读 · 0 评论 -
Spark 中的 RDD 分区的设定规则与高阶函数、Lambda 表达式详解
Apache Spark 是一个强大的开源分布式计算框架。它提供了丰富的功能和灵活的编程接口,其中弹性分布式数据集(RDD)是其核心概念之一。RDD 的分区设定规则对于数据处理的性能和资源利用至关重要,同时,高阶函数和 Lambda 表达式的运用能让我们在 Spark 编程中更加简洁高效地处理数据。本文将深入探讨 RDD 分区的设定规则以及高阶函数和 Lambda 表达式的相关知识。原创 2024-11-08 12:00:23 · 1454 阅读 · 0 评论 -
Spark 中 RDD 的诞生:原理、操作与分区规则
本文将深入探讨 RDD 的相关知识,包括它的诞生背景、设计与定义、在 WordCount 中的应用、五大特性、创建方式以及分区的设定规则等内容,希望能帮助读者更好地掌握 Spark 中 RDD 的使用。原创 2024-11-07 07:00:00 · 1625 阅读 · 0 评论 -
Spark on YARN:Spark集群模式之Yarn模式的原理、搭建与实践
本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上,详细介绍 Spark 的 YARN 集群搭建过程,以及在 YARN 模式下不同 deploy mode 的区别,并结合实际测试案例,帮助读者全面理解 Spark on YARN 这一重要的大数据技术应用。原创 2024-11-06 19:57:28 · 2220 阅读 · 0 评论 -
Spark 程序开发与提交:本地与集群模式全解析
本文将深入探讨 Spark 程序在本地开发并远程提交到集群测试的过程,以及使用 spark - submit 脚本在集群模式下提交程序的相关知识,包括参数配置、运行模式等内容。原创 2024-11-06 10:29:18 · 1654 阅读 · 0 评论 -
Spark 的Standalone集群环境安装与测试
在大数据处理领域,Spark 是一款极为强大的工具。本文将重点介绍 Spark 的 Standalone 集群环境安装、测试相关内容,帮助大家更好地理解和使用 Spark 的集群模式。原创 2024-11-05 10:15:22 · 1705 阅读 · 0 评论 -
Spark 的介绍与搭建:从理论到实践
通过本文对 Spark 的全面介绍,从其分布式思想、自身的发展历程、功能特点等,再到单机模式的搭建和测试,希望读者能够对 Spark 有一个清晰、深入的理解。Spark 作为大数据领域的重要工具,还有更多的潜力等待大家去挖掘和探索,希望这篇文章能成为大家在 Spark 学习和实践道路上的一个有力指引。原创 2024-11-04 14:33:38 · 1947 阅读 · 0 评论 -
PySpark 本地开发环境搭建与实践
本文详细介绍了 PySpark 本地开发环境的搭建过程,包括 JDK、Hadoop、Anaconda、PySpark 的安装以及 Pycharm 工程的创建。同时,深入讲解了代码编写、本地开发案例(如 WordCount、处理特殊分隔符、读取 hdfs 数据、获取外部变量)、Spark 程序的监控和 local 模式下结果文件数量问题等内容。通过掌握这些知识和技能,读者可以在 Windows 本地环境中高效地进行 PySpark 开发,处理大规模数据,解决实际业务中的数据分析和处理问题。原创 2024-11-01 09:33:51 · 2554 阅读 · 0 评论