
Spark
机智的大脚猴
这个作者很懒,什么都没留下…
展开
-
SparkStreaming 对接Kafka手动提交偏移量异常
场景:应业务需求,需使用SparkStreaming 一分钟一批次消费Kafka数据,消费2批次后出现提交偏移量异常提交代码如下 dataRDD.foreachRDD(rdd=>{ val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges //业务统计 //.... dataRDD.asInstanceOf[CanCommitOffse原创 2020-06-23 11:36:01 · 2146 阅读 · 0 评论 -
SparkSQL中常见函数
SparkSql中的两种替换函数1、regexp_replace(str,“abc”,“b”)将str中的abc替换成bregexp_replace("2.10.100.103.3","2.10.100.103.","") 结果:3regexp_replace("2.10.100.103.2","10","4")结果:2.4.40.43.22、translate(“str”,“a...原创 2019-03-29 14:43:25 · 6641 阅读 · 0 评论 -
SparkStreaming对接Redis导致redis连接数不断上升
redis连接数出现原因:在partition中通过新建对象创建redis连接池!使用完后,未彻底关闭连接池,导致随着批次增加,redis连接数也不断增加。解决办法:手动调用close或destroy()def destroyPool(): Unit ={ if(pool != null){ pool.close() } }...原创 2019-09-20 11:14:27 · 965 阅读 · 0 评论 -
SparkSQL的几种输出格式及压缩方式
1、json默认不压缩可用压缩格式:none, bzip2, gzip, lz4,snappy ,deflate2、parquet默认压缩格式:snappy可用压缩格式:none, snappy, gzip, lzoval PARQUET_COMPRESSION = buildConf("spark.sql.parquet.compression.codec") .doc("...原创 2019-10-11 18:32:57 · 5909 阅读 · 1 评论