
spark
a904364908
白了头.
展开
-
SparkSQL数据DataFrame向ElasticSearch写入的优化,亲测提高数倍
前言最近sparksql写入elasticsearch数据量逐渐增大,所以需要优化写入的速度.先说一下集群情况.es集群:elasticsearch-6.2.4, 机器配置:5台4C*16G阿里云机器.spark: 2.1.3.优化方向从spark参数和es索引两个方向进行优化spark参数es提供了一套完整的hadoop生态支持.可以完整的支持spark读写es.在...原创 2020-05-01 00:03:17 · 2131 阅读 · 0 评论 -
sparkstreaming ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access
最近在测试sparkstreaming的时候发现了一个问题,记录一下环境 spark 2.x, kafka_0.10.x示例代码:val ssc: StreamingContext = new StreamingContext(sparkSession.sparkContext,Seconds(5)) val kafkaBrokers:String = "hadoop01:9092...原创 2020-02-22 00:18:40 · 1149 阅读 · 0 评论 -
解决spark.rdd.MapPartitionsRDD cannot be cast to streaming.kafka010.HasOffsetRange问题
最近在做sparkstreaming测试的时候,自己出了一个小问题,记录下.贴部分代码:package com.ybs.screen.test.dataimport java.langimport java.util.Propertiesimport com.ybs.screen.constant.Constantsimport com.ybs.screen.model.{Prop...原创 2020-02-21 20:56:35 · 2635 阅读 · 0 评论 -
SparkSQL读取MySQL数据tinyint字段转换成boolean类型的解决方案
最近在做弄sparksql,在读取mysql数据的时候发现一个问题, 在数据库将字段定义成tinyint,并且长度为1的时候,读取到spark里面,被转换成Boolean类型的字段了.测试表定义CREATE TABLE `test1` ( `id` bigint(4) NOT NULL AUTO_INCREMENT, `name` varchar(36) COLLATE utf8mb4...原创 2019-09-08 14:39:33 · 1758 阅读 · 0 评论 -
spark读取MySQL的方式及并发度优化
前段时间用sparksession读取MySQL的一个表的时候,出现耗时长,频繁出现oom等情况,去网上查找了一下,是因为用的默认读取jdbc方式,单线程任务重,所以出现耗时长,oom等现象.这时候需要提高读取的并发度.现简单记录下.看sparsession DataFrameReader源码,读取jdbc有三个方法重载.单partition,无并发def jdbc(url: String,...原创 2019-07-07 16:47:20 · 4623 阅读 · 1 评论 -
sparksql 对MongoDB数据的读取(scala版本)
最近折腾sparksql,正好有需求,需要读取MongoDB的数据,在网上查找后,能顺利用sparksql读取MongoDB的数据.记录下添加依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <...原创 2019-02-28 22:01:04 · 2332 阅读 · 0 评论 -
sparkSQL 数据写入es
最近有需求,要将spark的数据写入es.在网上查找了一番,再测试过后,顺利将任务完成,记录下.直接上代码:pom文件:<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>...原创 2019-02-25 00:06:20 · 7180 阅读 · 4 评论 -
spark部署,standalone,ha,配置历史服务器
spark集群安装之前需要满足如下条件:集群主机名和hosts文件映射一一对应集群ssh免密登录配置集群每个节点防火墙关闭JDK正确安装Scala正确安装Hadoop集群安装,因为Spark存储层要用到HDFS,所以应该至少保证HDFS服务的正常运行集群环境:3节点,node01,node02,node03.standalone模式下载,解压spark,我用的是spark-2...原创 2019-01-05 00:20:45 · 786 阅读 · 0 评论 -
启动hive,报错 ls: cannot access /export/spark/lib/spark-assembly-*.jar: No such file or directory,解决
安装好spark,安装hive,安装的spark版本是2.1.3版本,hive版本是1.1.0安装好hive后,启动,发现一个报错,cannot access /export/spark/lib/spark-assembly-*.jar: No such file or directory. 看了一下,出现这个问题的原因是因为spark版本升级到2.x以后,原有lib目录下的大JAR包...原创 2018-09-20 20:52:45 · 4189 阅读 · 1 评论 -
启动spark时,提示JAVA_HOME not set,解决
刚部署好的spark,启动时报异常,JAVA_HOME is not set.排查后发现,在sbin目录下的spark-config.sh文件下未添加JAVA_HOME的索引.在该文件下添加jdk的路径,再分发到各个节点上就可以了 ...原创 2018-07-30 11:23:53 · 17365 阅读 · 4 评论