自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 clickhouse分析fsimage文件

需求:拉取fsimage文件,解析成csv入库到clickhouse,为监控提供数据1、拉取fsimage在有客户端的机器上执行如下命令,拉取fsimage文件到当前目录下hdfs dfsadmin -fetchImage ./ 2、解析fsimagehdfs oiv -p Delimited -delimiter "|" -i /home/hadoop/fsimage -o fsimage.csv -t /home/hadoop/temp-delimiter:指定分隔符-i:输入文件,

2022-04-07 15:08:47 293

原创 flink自定义指标发送到pushgateway写入prometheus

flink官方提供了写metrics的方式,但是相对来说有些不灵活,不符合我当前的要求,也没法自定义动态的label值,于是自定义了sink写入到pushgateway里。代码如下: class MyPushGateWaySink(pushgatewayipport:String) extends RichSinkFunction[(String,String,String)] { var pushgateway:PushGateway = _ var gauge:Gauge = G

2021-12-22 17:02:03 2412

原创 Flink异常:java.lang.AbstractMethodError: Method XXX Ljava/lang/Object; is abstract

java.lang.AbstractMethodError: Method flink/connect/kafka/stringTest$1.deserialize(Lorg/apache/flink/kafka/shaded/org/apache/kafka/clients/consumer/ConsumerRecord;)Ljava/lang/Object; is abstract at flink.connect.kafka.stringTest$1.deserialize(stringTest.j

2020-12-30 20:42:46 2698 2

原创 Flink自定义format,实现解析kafka自定义格式的cdc数据

flink自定义format,解析cdc数据

2020-11-06 14:38:10 3637

转载 通过region文件实现数据迁移,恢复hbase数据

因为要实现hbase的数据迁移,上游直接下发的region文件即图中文件,要在另一个集群上通过该文件将hbase表恢复步骤如下1.在新集群上创建hbase表,列簇同原表2.将region文件移动到新集群hbase的hdfs上该表的路径下,即图中的/hbase/data/default/hbase_test2下3.开启hbase shell,停用该表(disable ‘hbase_test2’)4.【第一次修复】执行命令: hbase hbck -repair “hbase_test2” &g

2020-10-30 10:46:49 409

原创 Sftp上传hdfs文件

仅做记录用package cn.com.xx.sftp;import com.jcraft.jsch.*;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.io.*;import java.uti

2020-10-28 11:09:47 1025

原创 spark2.1.3参数spark.streaming.concurrentJobs大于1报错 KafkaConsumer is not safe fo r multi-threaded access

因为集群比较老,选用的spark为2.1.3版本,消费kafka时发生数据积压现象,在调试过程中,调大启动参数spark.streaming.concurrentJobs发现会报消费者不安全异常,查了好久资料,是官方源码问题,需要改动源码加上线程id,改动的类有两个,代码如下CachedKafkaConsumer/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license a

2020-09-28 14:37:53 700

转载 读取kafka offset,保存至zk,并处理kafka.common.OffsetOutOfRangeException,offset过期问题

将kafka的offset保存到zk,当任务因为某些原因终止,一段时间内没有发现,再次重启会发生offset越界问题,是因为zk中保存到offset已过期,所以,任务启动时应该做一次判断,将kafka最小的offset与zk中的比较,如果kafka最小的offset还要比zk中保存的大,此时应该从kafka的offset加一点偏移量开始消费,我这边由于数据量比较大,偏移量为50wimport java.util.Propertiesimport kafka.utils.{ZKGroupTopicDir

2020-08-21 11:02:30 525

原创 java实现读取文件,通过bulkprocesser入库有用户名密码验证的ES

我尽量写的详细一点,从主函数开始main没啥东西,就是一个方法的调用path:制表符分割的csv文件ip:es的ip地址port:9200,看到网上很多说bulkprocessor用9300的,但是我用一直报错,两个都试一下吧args[2]:ES的用户名args[3]:ES的密码readcsv readcsv = new readcsv();readcsv.readCsv(path,ip,port,args[2],args[3]);readcsvpublic class readcsv

2020-08-14 09:59:29 497

原创 flink DataStream[Row]注册为table报错:An input of GenericTypeInfo<Row> cannot be converted to Table.

读取test.csv的内容,map将内容转换为Row类型,然后注册为tableval stream = env.readFile(inputFormat,"D://test.csv",FileProcessingMode.val stream = val stream = env.readFile(inputFormat,"D://fsimage.csv",FileProcessingMode.PROCESS_CONTINUOUSLY,1000L).setParallelism(1)val strea

2020-07-31 17:12:17 1702

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除