
Spark
文章平均质量分 94
文辳
这个作者很懒,什么都没留下…
展开
-
Spark web UI 介绍
打开 Spark UI,首先映入眼帘的是默认的 Jobs 页面。Jobs 页面记录着应用中涉及的 Actions 动作,以及与数据读取、移动有关的动作。其中,每一个 Action 都对应着一个 Job,而每一个 Job 都对应着一个作业。可以看到,导航条最左侧是 Spark Logo 以及版本号,后面则依次罗列着 6 个一级入口。每个入口的功能与作用如下的表格介绍其中Spark Properties 是重点,其中记录着所有在运行时生效的 Spark 配置项设置。原创 2024-06-23 16:52:06 · 2831 阅读 · 0 评论 -
Spark 中如何去处理数据倾斜
在大数据环境中,使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spark会自动将倾斜分区拆成多个分区进行join, 默认判断是某分区的数据量超过平均分区数据量5倍以上会被spark进行拆分。原创 2024-06-23 16:11:38 · 2081 阅读 · 0 评论 -
Spark资源调优手册
性能调优该如何去做?面对成百上千的业务代码、近百个spark 配置项该如何入手?这里帮大家简单的归纳了下与性能调优相关的配置项,并从如何去评估资源出发,让我们在进行资源设置的时候有所依据。原创 2024-06-23 14:50:06 · 1011 阅读 · 0 评论 -
Spark AQE 特性怎么能使用好?
AQE 是 Spark SQL 的一种动态优化机制,它的诞生解决了 RBO、CBO,这些启发式、静态优化机制的局限性。想要用好 AQE,我们就要掌握它的特点,以及它支持的三种优化特性的工作原理和使用方法。如果用一句话来概括 AQE 的定义,就是每当 Shuffle Map 阶段执行完毕,它都会结合这个阶段的统计信息,根据既定的规则和策略动态地调整、修正尚未执行的逻辑计划和物理计划,从而完成对原始查询语句的运行时优化。原创 2024-06-03 12:00:51 · 2295 阅读 · 0 评论