
spark
文章平均质量分 88
fct2001140269
大数据架构、地理信息系统
展开
-
Spark性能调优基础
一、开发调优复用RDD并进行持久化对于同一份数据的读取,避免创建多个RDD,尽可能复用,并且对于多次使用的RDD进行持久化,避免重复计算。错误写法val rdd1 = sc.textFile("hello.txt")rdd1.map(...).count()val rdd2 = sc.textFile("hello.txt")rdd2.reduce(...).count()正确写法//不持久化,Spark默认还是会读取两次数据val rdd = sc.textFile("hello.原创 2022-01-29 14:45:05 · 2091 阅读 · 0 评论 -
Spark心跳存活-延迟处理-异常日志告警
Spark心跳存活-延迟处理-异常日志告警1.目录大纲spark异常日志告警spark存活心跳告警spark批次处理延迟告警2.任务背景2.1问题背景 生成中针对spark steaming的程序进行告警的设置,生产上线需要监控spark streaming的异常日志的告警,及时发现生产线中的异常问题,方便快速定位问题;同时对spark 通过心跳机制对spark的异常下线问题告警,方便运维人员及时通知运维人员跟进,恢复程序运行。2.2 技术路线1.基于以往的告警研究,监控日志原创 2020-08-11 14:36:43 · 1102 阅读 · 0 评论 -
Spark history UI历史监控构建
typora-copy-images-to: …\typora-pictureSpark history UI历史监控构建created by fangchangtan | 202006091 构建历史spark ui回放功能的目的 spark steaming运行过程中,如果spark streamming程序异常终止,则spark ui后台线程立即消失,导致后期追踪恢复spark问题现场困难,此时只能通过spark的日志来发现问题,但是spark的日志本身保存时间短(2天),日志中可.原创 2020-06-18 11:23:08 · 1113 阅读 · 0 评论 -
Spark streaming动态调整资源-调研报告
Spark streaming动态调整资源调研报告一、需求背景:我们希望spark streaming根据不同时间段的数据量不同(例如高峰期和低谷期),自动调整spark的计算资源(包含CPU和memory大小)。从而,可以在高峰期自动增加计算资源以提升处理能力,在数据量低谷时候自动缩减所需资源量,减少资源浪费。二、 调研情况:2.1 spark on mesos的资源伸缩原理spark...原创 2020-02-10 09:53:29 · 584 阅读 · 0 评论 -
记一次spark中task卡顿引发的血案
记一次spark中task卡顿引发的血案前言提要:(1)当前spark采用粗粒度的执行方式,资源申请都是一次性的完成;不存在后期申请不到资源的情况;(2)数据量很小,每秒100条左右,基本不存在数据倾斜的问题,但是执行的业务流程很复杂;(3)采用spark on mesos的组粒度模式运行1.问题描述:2019年12月24日ML处理30个文件时间很异常超过10h;xx中部分t...原创 2019-12-27 14:54:29 · 3539 阅读 · 0 评论 -
(executor 1 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after
WARN TaskSetManager: Lost task 44.0 in stage 1368.0 (TID 17283, 172.19.32.66, executor 1): ExecutorLostFailure (executor 1 exited caused by one of the running tasks) Reason: Executor heartbeat timed o...原创 2019-12-26 20:06:15 · 3411 阅读 · 0 评论 -
搭建运行spark streaming过程遇到的问题
搭建运行spark streaming过程遇到的问题问题描述:完成spark streaming之后执行mvn package之后出现如下错误:Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:testCompile (default) on project ProjectXXX出现问题原因:这个问题,是...原创 2019-06-28 11:17:56 · 553 阅读 · 2 评论 -
spark streaming从kafka接收的简单demo
准备工作,需要配置本地scala环境,配置方法见我的另外一篇博客:https://blog.youkuaiyun.com/fct2001140269/article/details/93978940一、pom.xml配置我的pom.xml也一并贴出,方便小伙伴们参考:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt...原创 2019-06-28 12:38:18 · 540 阅读 · 0 评论 -
spark streaming中shuffling后partition数量
spark-streaming中shuffle后patitation总结使用reduceByKey时候,在shuffle阶段的reduce时候,其使用的RDD的partation数量的源码解释如下:/** * Return a new DStream by applying `reduceByKey` to each RDD. The values for each key are ...原创 2019-07-16 16:52:46 · 666 阅读 · 0 评论 -
记一次spark-streaming性能优化的经历
//知识,哪怕是知识的幻影,也会成为你的铠甲,保护你不被愚昧反噬记一次spark-streaming性能优化的经历记一次spark-streaming性能优化的经历:1.优化后效果:一个job执行时间有原来的3min,优化之后提升到40s,性能提升4倍;2.原因分析与解决方法优化前原始spark-steaming程序,跑的特别慢,原因分析:(1)主要问题是使用repatition函数...原创 2019-08-02 17:28:26 · 845 阅读 · 0 评论 -
Spark性能调优之合理设置并行度
转载:https://www.2cto.com/net/201801/716312.htmlSpark性能调优之合理设置并行度1.Spark的并行度指的是什么?spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度!当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同...转载 2019-07-25 17:11:40 · 472 阅读 · 0 评论 -
Spark-steamming性能变慢的问题分析-内存分析
Spark-steamming性能变慢的问题分析知识背景:需要从spark的DAG优化、内存、CPU、序列化、shuffle磁盘读写、GC回收情况请角度考虑相应的问题。1.在集群中spark内存现状:[外链图片转存失败(img-bL8CCXXb-1566547586815)(C:\Users\user\AppData\Roaming\Typora\typora-user-images\156...原创 2019-08-23 16:12:54 · 842 阅读 · 0 评论 -
个别task导致spark任务整体变慢的问题总结
个别task导致spark任务整体变慢的问题总结问题:个别task速度慢而拖慢整体任务的问题现象描述:1.stage1阶段中的kafka的receiver接受kafka中不同partiton中的相同批次中拉取的记录条数record不同,导致同一个批次的不同task处理时间偏长(处理任务时间倾斜)这个要结合业务进行优化(是否可以对kafka分区中对key做hash分区的时候离散化?)2....原创 2019-08-23 18:59:11 · 3715 阅读 · 0 评论 -
spark streaming无缝切换job之实践
spark streaming无缝切换job之实践**方案主要内容:**通过并行运行两个job,同时保证数据不丢失和中间状态相同,并行运行自然无缝切换;最终保证的是结果计算的最终一致性。1.该方案需要解决的问题:1.保证kafka中数据不丢失(at last once);2.对增量更新状态的保存(Redis已经做了)。3.生产中首次消费积压的数据的时候,数据量过大导致OOM的...原创 2019-08-23 15:58:14 · 353 阅读 · 0 评论 -
OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions
问题描述:OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions运行SparkStreming程序一段时间后,发现产生了异常:19/06/26 03:05:30 ERROR JobScheduler: Error running job streaming j...原创 2019-06-26 17:32:08 · 11097 阅读 · 0 评论 -
【Spark篇】---Spark中yarn模式两种提交任务方式
转载:https://blog.youkuaiyun.com/LHWorldBlog/article/details/79300036 一、前述Spark可以和Yarn整合,将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交任务的方式。二、具体  ...转载 2018-10-06 18:30:57 · 258 阅读 · 0 评论 -
SparkSession解释
创建SparkSessionSpark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark2的难度也会大大降低。早期版本:在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext,代码如下://设置SparkConf配置参数,并创建...原创 2018-10-09 13:44:16 · 2819 阅读 · 2 评论 -
SparkSeesion读写操作数据库
SparkSeesion读写操作数据库(亲测有效)object JDBCDemo { def main(args: Array[String]): Unit = { //获取spark的连接 val session = SparkSession.builder() .master("local") .appName(JDBCDemo.getClass...转载 2018-10-10 13:50:12 · 1649 阅读 · 1 评论 -
基于scala的spark on yarn历史统计程序
我的测试程序代码:1.写好scala代码功能:从hdfs读取数据,然后处理后输出到hdfsimport org.apache.spark.sql.{Dataset, SparkSession}object TestLoadDbData { def main(args: Array[String]): Unit = { if (args.size != 1) { p...原创 2018-10-19 17:10:44 · 487 阅读 · 0 评论 -
Spark学习之路 -网站地址
学习spark的网站地址:真心不错https://www.cnblogs.com/qingyunzong/p/8899715.htmlhttps://www.cnblogs.com/qingyunzong/category/1202252.html原创 2018-10-10 17:20:35 · 36981 阅读 · 0 评论 -
spark中的数据倾斜的现象、原因、后果
转载自:https://blog.youkuaiyun.com/weixin_40691089/article/details/796062609、spark中的数据倾斜的现象、原因、后果(1)、数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。(2)、数据倾斜的原因数据问题1、key本身分布不均衡(包括大量的key为空)2、key的...转载 2018-10-24 17:11:53 · 1896 阅读 · 0 评论 -
spark dataframe实战(持续更新)
转载:https://blog.youkuaiyun.com/zg_hover/article/details/78839755?utm_source=blogxgwz0转载 2018-10-24 20:09:35 · 374 阅读 · 0 评论 -
Spark学习之路--官方文档+简单
一、学习spark中官方文档:1.《Spark 官方文档》Spark快速入门英文原文:http://spark.apache.org/docs/latest/quick-start.html中文文档:http://ju.outofmemory.cn/entry/2543112 RDD Programming Guide英文原文: http://spark.apache.org/docs/...原创 2018-11-03 18:18:40 · 1269 阅读 · 0 评论 -
Spark常用优化方法
一、前言1.为什么要优化?因为你的资源有限、更快速的跑完任务、防止不稳定因素导致的任务失败。2.怎样做优化?通常查看spark的web UI,或者查看运行中的logs3.做哪方面的优化?spark 应用程序 80% 的优化,都是集中在三个地方:内存,磁盘io,网络io二、调优详情1.spark-submit命令中作为参数设置资源参数设置的不合理,可能会导致没有充分利用集群资源...原创 2018-11-20 22:45:19 · 1056 阅读 · 0 评论 -
Spark(六):SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理
Spark(六):SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理如上转载的这篇文章写得不错!!!一:简单了解SparkSQL。Spark SQL 是结构化的数据处理一个Spark模块。与基本的Spark RDD API不同,Spark SQL 所提供的接口为Spark 提供有关数据和正在执行的计算的结构的详细信息。Spark SQL内部使用这些额外的信息来执行...转载 2018-11-20 23:02:15 · 2018 阅读 · 0 评论 -
sparkSQL实战详解
转载自:https://www.cnblogs.com/hadoop-dev/p/6742677.html摘要 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;如果要想真正的掌握sparkSQL编程,首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识,然后转载 2018-11-26 14:28:35 · 205 阅读 · 0 评论 -
spark-submit中的参数调优
spark-submit中的参数参数名 格式 参数说明--master MASTER_URL 如spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local--deploy-mode DEPLOY_MODE Client或者master,默认是client--class ...转载 2018-12-29 17:06:43 · 234 阅读 · 0 评论 -
spark scala maven简单创建工程与提交任务到yarn
第一步 :使用idea和maven开发和打包scala和spark程序参考:https://blog.youkuaiyun.com/xingyx1990/article/details/80752041(注意:我自身采用mvn命令打包的方式打包:mvn clean compile package)第二步:其中的maven工程中需要配置java+scala的jar包的打包方式如下,是我的spark的ma...原创 2018-12-29 17:26:33 · 1489 阅读 · 0 评论