
Spark
文章平均质量分 82
pyiran
github: https://github.com/yipen/
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
部署Spark History Server到K8s
Spark History Server running on k8sSpark History Server(SHS)是一个无状态服务,只要eventlog没有丢失,SHS重启或者切换是不会受到影响的。当然当我们开启了SHS的磁盘缓存的时候,如果SHS换了node启动,缓存可能就会丢失,但是SHS可以根据eventlog重新生成缓存,因此我们可以认为他是一个无状态服务。这样的服务在K8s上可以很容易的进行部署,本文将介绍如何把SHS部署到8s上,分享一下可能遇到的问题。SHS image准备Spar原创 2022-02-25 15:26:16 · 1911 阅读 · 2 评论 -
Livy REST API使用教程
Livy概述用过Spark的朋友对Livy一定不陌生,Livy是Apache Spark下的一个REST服务,通过Livy,你只要可以发送Http请求,就可以提交Spark任务。Livy在很多Spark数据平台上都作为一个提交任务的重要工具,你可以不知道Livy是怎么工作的,但是你不能不知道Livy是如何使用的。这里我们重点介绍下如何使用Livy的REST API来提交Spark任务,当然首先你得对Spark submit有一定的了解,不然就先移步Spark submit wiki。Livy交互式的任务原创 2020-10-21 13:27:17 · 2217 阅读 · 0 评论 -
Spark History Server性能改进(一)-- 应用列表
Spark History Server的主页Spark History Server(SHS) 主页展示了一定时间内(spark.history.fs.cleaner.maxAge, default 7d)的所有的application列表,包含了applicationId, name, attemptId, start time, end time, duration, user, eventlog下载链接。SHS如何生成app列表SHS是基于event log来生成application li原创 2020-07-09 20:00:24 · 1031 阅读 · 1 评论 -
Spark调优常用配置参数
最近看到一篇不错的关于Spark内存调优的blog,分享一下:https://idk.dev/best-practices-for-successfully-managing-memory-for-apache-spark-applications-on-amazon-emr/这篇blog主要提出了几种Spark内存调优方式(基于的是Amazon EMR总结的,但是我觉得通用性还是很强),的确...原创 2020-03-30 15:22:34 · 975 阅读 · 1 评论 -
Spark speculation(推测执行)详解
为什么需要speculation我们都知道,Spark job中,一个stage什么时候完成,取决于stage下最后一个task的完成时间。task的完成时间也被很多因素影响,比如partition的分配,executor的资源使用情况,host的运行状态,集群网络等等。很多情况下因为运行环境导致的task跑的过慢,让task可以重新跑起来是可以缓解这个问题的,因此就Spark就启用了specu...原创 2020-03-12 21:15:11 · 6232 阅读 · 0 评论 -
Spark对于Yarn priority的支持源码详解
Yarn的调度器 Priority在Yarn中的使用 SparkOnYarn支持priority 参考 Yarn的调度器在Yarn中,提供了Capacity scheduler和Fair scheduler,它们都支持priority的。这里我们简单介绍下概念,不做过多的描述。Capacity SchedulerCapacity scheuler设计的目的是为了让Hadoop上的ap...原创 2020-03-09 21:04:31 · 2914 阅读 · 0 评论 -
Spark调优工具--Sparklens详解
前言 Sparklens如何使用 Sparklens生成的报告 参考 前言Sparklens是一个可以帮助你了解你的Spark job效率的开源工具。Spark是个近些年来非常受欢迎的基于内存并行计算框架架,它有丰富的API支持,还支持 Spark SQL,MLlib,GraphX和Spark Streaming。在提交Spark Job的时候,我们会需要设置一些config, 虽然这极...原创 2020-03-07 13:56:45 · 3291 阅读 · 0 评论 -
Spark History Server和Event Log详解
这篇文章会overall的介绍一下Spark History Server的实现原理。Spark History Server(以下简称SHS)是一个用来debug 你的Spark applications的非常有用的工具。我相信认熟悉Spark的对它都并不陌生。SHS是根据通过持久化application的运行过程中的所有events,通常是将定义的event写到一个HDFS的文件,这个文件就叫...原创 2020-03-03 16:20:47 · 4157 阅读 · 0 评论