spark
文章平均质量分 58
sunyang098
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark submit示例
#!/bin/shhdfs dfs -rmr /tmp/checkpoint/gx_db_mysqlCONF_DIR=/home/hadoop/gx_bigdata/gx_db/conf/mysqlAPP_CONF=application.conf/usr/local/service/spark/bin/spark-submit \ --class com.gac.gx.GxDBMysqlApplication \ --name 'com.gac.gx.GxDBMysqlApplication'原创 2022-07-06 18:03:00 · 836 阅读 · 0 评论 -
Structured Streaming使用ES RestHighLevelClient不当造成内存溢出问题
Structured Streaming任务使用foreach自定义sink写es,任务运行二三十分钟就挂掉。报错日志也没有报我的代码哪行抛的异常。在测试环境,任务数据量很小,一分钟也没有几条数据,本来以为不会是内存的问题,看spark ui的executor模块,显示每个executor的内存使用也是很小。后来详细看任务日志,发下些问题21/08/24 17:33:56 org.apache.spark.internal.Logging.logError(Logging.scala:94)原创 2021-08-25 16:57:28 · 1320 阅读 · 0 评论 -
structured streaming java.lang.NullPointerException
问题描述:structured streaming任务报空指针,但报的不是自己的代码,是spark框架的代码,报错日志如下Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 4 times, most recent failure: Lost task 0.3 in stage 2.0 (TID 39, 10.2.6.21, executor .原创 2021-08-09 16:15:07 · 629 阅读 · 0 评论 -
Spark 程序依赖与spark 库jar包冲突解决方案
问题描述:使用spark的StructuredStreaming写数据到es,加载的spark集群jars下的jar包版本(httpclient-4.5.4.jar)跟依赖的jar包版本不一致(httpclient-4.5.10.jar),导致任务失败。我在idea上本地调试,使用httpclient-4.5.10.jar的话,是能正常访问es的。在yarn上的错误日志:Caused by: java.lang.BootstrapMethodError: call site initiali.原创 2021-07-20 15:38:43 · 3176 阅读 · 1 评论 -
Structured Streaming任务GC问题
现象:Structured Streaming任务修改了些代码运行后,task运行较慢,运行一会后task会报错,taskstdout日志如下## java.lang.OutOfMemoryError: Java heap space# -XX:OnOutOfMemoryError="kill %p"# Executing /bin/sh -c "kill 922787"...21/01/12 09:45:07 org.apache.spark.internal.Logging$clas.原创 2021-01-13 10:48:58 · 1292 阅读 · 0 评论 -
Structured Streaming checkpoint目录不生效,每次启动创建新的checkpoint目录
现象:同事的StructuredStreaming实时任务中配置了checkpoint,但是每次重启实时任务的时候,实时任务就只处理最新的数据,不会接之前消费offset,然后checkpoint目录下每次启动都会产生新的目录 checkpoint配置如下: 配置了spark.sql.streaming.checkpointLocation参数解决办法:通过查看spark源代码,发现使用spark.sql.streaming.checkpointLocation的话,也需...原创 2021-01-09 17:42:47 · 673 阅读 · 0 评论 -
Structured Streaming配置Kafka参数
override def stream(): DataFrame = { val kafkaConf = new KafkaConfiguration val spark = GxSparkSession().session() val df: DataFrame = spark .readStream .format("kafka") .option("subscribe", kafk...原创 2020-11-06 14:56:30 · 1209 阅读 · 0 评论 -
【腾讯云Ckafka】 带宽限制 Increase the fetch size on the client (using max.partition.fetch.bytes)
问题描述:structuredstreaming读腾讯云的ckafka,当消费流量超过消费峰值带宽时,structuredstreaming任务会挂掉,报错日志如下:Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 6 in stage 126.0 failed 4 times, most recent failure: Lost task 6.3 in stage 126.0 (T..原创 2020-11-06 11:01:28 · 1144 阅读 · 3 评论 -
Spark Streaming和Spark Structured Streaming更新broadcast
1)Structured Streaming更新broadcastval enSpark = enSparkSession.session() enSpark.streams.addListener(new StreamingQueryListener { override def onQueryStarted(event: StreamingQueryListener.QueryStartedEvent): Unit = { } override def原创 2020-08-12 18:43:24 · 634 阅读 · 0 评论 -
为啥spark 的broadcast要用单例模式
https://blog.youkuaiyun.com/rlnLo2pNEfx9c/article/details/91446692很多用Spark Streaming 的朋友应该使用过broadcast,大多数情况下广播变量都是以单例模式声明的有没有粉丝想过为什么?浪尖在这里帮大家分析一下,有以下几个原因: 广播变量大多数情况下是不会变更的,使用单例模式可以减少spark streaming每次job生成执行,重复生成广播变量带来的开销。 单例模式也要做同步。这个对于很多新手来说可以不用考虑同步问转载 2020-08-12 18:33:51 · 206 阅读 · 0 评论 -
struct streaming+Kakfa消费者读取单条记录过长问题
使用struct streaming读kafak数据,fetch数据过大,报错日志如下:20/06/06 11:40:01 org.apache.spark.internal.Logging$class.logError(Logging.scala:70) ERROR TaskSetManager: Task 7 in stage 96.0 failed 4 times; aborting job20/06/06 11:40:01 org.apache.spark.internal.Logging$原创 2020-06-06 14:14:28 · 403 阅读 · 0 评论 -
spark 朴素贝叶斯(naive bayes)模型save与load优化
Spark MLLIB中Naive Bayes(朴素贝叶斯)分类模型的保存与加载速度在实际应用场景中,比较慢,先对朴素贝叶斯模型save与load进行优化。优化后,save与load速度提高很多倍(优化前需要4-5分钟,而且比较容易出现问题而失败,优化后只需要几秒钟),模型文件占用空间也减小了50%。先简单介绍下Naive Bayes模型机制数据结构: case clas原创 2017-04-27 17:00:22 · 4792 阅读 · 0 评论 -
Spark RDD操作:combineByKey函数详解
当数据集一键值对形式组织的时候,聚合具有相同键的元素进行一些统计是很常见的操作。对于Pair RDD常见的聚合操作如:reduceByKey,foldByKey,groupByKey,combineByKey。这里重点要说的是combineByKey。因为combineByKey是Spark中一个比较核心的高级函数,groupByKey,reduceByKey都是基于combineByKey实现的原创 2017-04-26 14:16:45 · 1665 阅读 · 0 评论 -
Spark Streaming 教程文档--概述、基本概念、性能调优
SparkStreaming教程本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1 概述1.1 SparkStreaming是什么Spark Streaming 是个批处理的流式(实时)计算框架。其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 支持从多种数据源获取数据,包括原创 2017-03-31 17:05:24 · 7132 阅读 · 2 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2016-11-30 15:29:52 · 582 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2016-11-30 15:17:39 · 683 阅读 · 0 评论 -
实现CDH支持Spark SQL功能
CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala;如果上线spark却不能使用sql这种结构化语言,对于大部分分析人员其实是很不爽的!so,就手动实现支持spark-sql的功能吧1.下载spark的包http://www.apache.org/ -》 右上角download -》 HTTP http://apach原创 2016-08-11 13:47:06 · 12834 阅读 · 2 评论 -
Spark集成Kafka源码分析——SparkStreaming从kafak中接收数据
整体概括:要实现SparkStreaming从kafak中接收数据分为以下几步(其中涉及的类在包org.apache.spark.streaming.kafka中):1.创建createStream()函数,返回类型为ReceiverInputDStream对象,在createStream()函数中最后返回构造的KafkaInputDStream类对象2.KafkaInputDStre原创 2015-12-18 17:33:23 · 2906 阅读 · 0 评论 -
spark性能调优官方文档
该文指出了Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化。对于大多数程序而言,采用Kryo框架以及序列化能够解决性能有关的大部分问题。原创 2015-10-09 10:13:03 · 900 阅读 · 0 评论
分享