
Spark
Rone-X
Time is Love
展开
-
assertion failed: Failed to get records for spark-executor3 24025 after after polling for 1000
这个问题有必要记录一下!!!!报错信息如下任务运行时,Task锯齿图有人说加参数"spark.streaming.kafka.consumer.poll.ms", 512如果你尝试这个成功了那么恭喜你,可以关闭此博客了!我们项目遇到了这个问题,加了参数没得用,而且导致job失败,本来job虽然会慢一点,但是加了这个参数则会报上面截图的错误!左思右想不知道怎么回事儿!带宽问题?...原创 2020-04-01 15:20:15 · 3517 阅读 · 1 评论 -
IDEA解决Maven仓库jar下载失败
在Maven仓库中有些jar包虽然引入到了pom文件中,但是刷新pom时这个jar总是下载失败!第一步、去maven仓库中将所需的jar下载到本地第二步、尝试将下载好的jar假如本地仓库(仅作jar文件路径是否正确的验证)第三步、在idea中点击package重写命令并运行重启就OK了!#################################本次以redislab为指导操作确...原创 2020-03-29 12:18:24 · 767 阅读 · 0 评论 -
SparkStreaming变慢问题分析
SparkStreaming跑着跑着会变慢!我们的任务是每秒解析1800条数据,而每天早上我去查看解析速度的时候发现每秒只解析了500条左右!看了下Yarn集群的运行日志,我发现每天晚上凌晨的时候都有一个定时的job在运行!这导致本来集群资源就不足!3个计算节点每个节点16核128G,一共才48核。我们的SparkStreaming任务 Repartition了一次(提高并发量),这样则Re...原创 2020-03-26 11:22:39 · 1281 阅读 · 1 评论 -
Container killed by YARN for exceeding memory limits
SparkOnYarn资源不足本以为申请的资源够了呢,没想到任务跑了3个小时就死掉了去Yarn上看日志看到下面这个玩意儿20/03/12 11:33:03 ERROR YarnClusterScheduler: Lost executor 2 on node-ana-corePKeW: Container killed by YARN for exceeding memory limits...原创 2020-03-12 15:41:23 · 614 阅读 · 0 评论 -
Json4s的一些用法 JSon转对象实体 Json转Map Map转Json
Json4s 全称就是Json For Scala,为Scala而生首先上Maven依赖配置,其实Spark中自带了Json4s如果是编写Spark代码,并不需要单独引用Json4s的依赖了 <dependency> <groupId>org.json4s</groupId> <artifactId>json4s-jack...原创 2020-02-12 14:24:51 · 1853 阅读 · 0 评论 -
IDEA build Spark Artifact包 控制jar大小
使用IDEA打Spark jar包我们使用Scala编写Spark程序代码,需要将编译好的jar放到集群环境中跑任务,但是集群中大部分的依赖包已经存在了,我们就不需要将其再次打入到Spark程序包中,这个操作类似于用Maven打包的<scope>provided</scope>今天抽空写一下用IDEA build Artifact包。PS :Scala开发环境以及使用...原创 2020-01-18 15:36:32 · 695 阅读 · 0 评论 -
SparkStreaming maxRatePerPartition参数
SparkStreaming每次读取Kafka数据量的问题假设:我们的Sparkt window窗口设置10s(10s拉取一次kafka数据)Kafka的Partition有3个maxRatePerPartition设置为5000那么Spark每次拉取的数据为 10s * 3 * 5000 = 150000 条我们知道使用SparkStreaming的Direct模式消...原创 2020-01-18 14:50:41 · 1971 阅读 · 2 评论 -
解决同步Kafka集群,消费不到数据
今天使用华为云(Dest)同步金山云(Source)Kafka数据时,华为云一点点响应都没。我登录控制台尝试直接启动Consumer去消费,结果也是一样消费不到数据!接着就是确认网络通不通的问题了!ping 一下 ok 通的telnet 一下 ok 可以进入9092端口的那么到底哪里出了问题了呢?左思右想不得琦姐。出去走了一圈突然想到了,以前在自己搭建的大数据环境上也遇到过这种问题...原创 2020-01-15 16:51:31 · 1437 阅读 · 0 评论 -
Spark程序调用json4s报错[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/Js]
直接使用Spark中自带的Json4s 就解决了。我的pom中指定了Json4s,如下: <dependency> <groupId>org.json4s</groupId> <artifactId>json4s-jackson_2.11</artifactId> <version>3....原创 2020-01-13 15:21:31 · 1825 阅读 · 0 评论 -
org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl - Interrupted while waiting for qu
今天用华为云MRS跑Spark On Yarn 报出一个没见过的错误2020-01-13 10:49:44,667 [AMRM Callback Handler Thread] INFO org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl - Interrupted while waiting for queue...原创 2020-01-13 12:08:52 · 3503 阅读 · 1 评论 -
SparkStreaming消费不到Kafka的数据
我这边遇到的问题是由于手动维护了offset,指定了分组我新增了一个Topic,新创建了一个Consumer。但是保存Redis里面的分组还是原来的test所以消费不到啊!!!!!...原创 2019-12-26 17:12:26 · 1501 阅读 · 0 评论 -
Missing required configuration "key.serializer" which has no default value.
SparkStreaming写入Kafka报错Missing required configuration "key.serializer" which has no default value.这是因为你在KafkaParams参数时没有指定key.serializer将KafkaParams配置项设置为以下格式就ok了/** * 设置Kafka参数 */ ...原创 2019-12-25 16:38:01 · 14888 阅读 · 2 评论 -
Livy设置Session生命周期
为什么要更改Livy的Session生命周期?使用LivyREST接口提交SparkJob时,任务执行成功后,过段时间Session和Job or Bathes的ID则会被清空,导致Spark任务的执行结果可能会查询不到,所以需要更改一下Livy的生命周期。首先如果是在CDH环境下,则只需要在Livy的WebUI界面更新一下配置文件。添加livy.server.session.timeout...原创 2019-09-03 14:37:43 · 2776 阅读 · 0 评论 -
Spark 连接mysql提交jar到Yarn上报错Futures timed out after [100000 milliseconds]
19/08/06 13:47:33 ERROR yarn.ApplicationMaster: Uncaught exception:java.util.concurrent.TimeoutException: Futures timed out after [100000 milliseconds]at scala.concurrent.impl.Promise$DefaultPromise...原创 2019-08-06 16:07:54 · 1497 阅读 · 0 评论 -
Spark Error : A master URL must be set in your configuration
Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.scala:367) at org.apache.spark.S...原创 2019-08-06 11:05:30 · 631 阅读 · 0 评论 -
Java 创建与读取Livy Session以及结果
直接上代码package net.aas.penrose.deploy.utils;import org.springframework.http.*;import org.springframework.web.client.RestTemplate;import java.util.Map;public class LivyServerUtil { private...原创 2019-07-22 16:15:58 · 1169 阅读 · 7 评论 -
Java连接Livy获取session报错 code 400
参数如果这样写肯定会报400错误了HttpEntity<String> entity = new HttpEntity<String>("{'kind': 'spark'}",headers);参数传递要改成这样HttpEntity<String> entity = new HttpEntity<String>("{\"kind\": \"s...原创 2019-07-19 18:18:57 · 552 阅读 · 0 评论 -
databricks使用教程
Databricksdatabricks是使用Apache Spark™的原始创建者提供的Databricks统一分析平台它集成了Spark环境支持Scala、python、R语言进行开发。databricks分商业版本和社区版本,学生以及个人可以使用社区版本。社区版本只需要注册一下账号,则就会拥有一台配置为6G内存的Spark集群环境。Spark初学者则不再为配置开发环境而烦恼·~~~~...原创 2019-05-21 19:18:29 · 25426 阅读 · 9 评论