啃骨头的代码狗-优快云博客

原创 clickhouse分析fsimage文件

需求：拉取fsimage文件，解析成csv入库到clickhouse，为监控提供数据1、拉取fsimage在有客户端的机器上执行如下命令，拉取fsimage文件到当前目录下hdfs dfsadmin -fetchImage ./ 2、解析fsimagehdfs oiv -p Delimited -delimiter "|" -i /home/hadoop/fsimage -o fsimage.csv -t /home/hadoop/temp-delimiter:指定分隔符-i：输入文件，

2022-04-07 15:08:47 347

原创 flink自定义指标发送到pushgateway写入prometheus

flink官方提供了写metrics的方式，但是相对来说有些不灵活，不符合我当前的要求，也没法自定义动态的label值，于是自定义了sink写入到pushgateway里。代码如下： class MyPushGateWaySink(pushgatewayipport:String) extends RichSinkFunction[(String,String,String)] { var pushgateway:PushGateway = _ var gauge:Gauge = G

2021-12-22 17:02:03 2540

原创 python实现采集yarn队列资源使用百分比，暴露为prometheus的exporter格式，进行yarn队列资源监控

python脚本实现，访问官方提供的地址，获取队列资源使用指标，并将指标进行json解析，之后再转换为prometheus认识的数据格式，暴露于端口下#coding=utf-8'''通过访问官方提供的yarn restful api界面,获取yarn资源指标分析json取的所需指标以pormetheus的数据格式将指标暴露在指定端口下入参：yarn的ip:port yarn队列数量 export暴露的机器IP(建议为本机IP) export暴露的端口号'''import promethe

2021-03-11 14:48:51 2806 4

原创 python实现prometheus自定义export，监控namenode的jmx指标

自定义一个node_export，获取namenode的jmx指标给prometheus，并没有完全写完，也还未完整测试，先记个初始版的，之后完善import prometheus_clientfrom prometheus_client import Counter, Gaugefrom prometheus_client.core import CollectorRegistryfrom flask import Response, Flaskfrom psutil import virtua

2021-01-13 15:50:33 682

原创 Flink异常：java.lang.AbstractMethodError: Method XXX Ljava/lang/Object； is abstract

java.lang.AbstractMethodError: Method flink/connect/kafka/stringTest$1.deserialize(Lorg/apache/flink/kafka/shaded/org/apache/kafka/clients/consumer/ConsumerRecord;)Ljava/lang/Object; is abstract at flink.connect.kafka.stringTest$1.deserialize(stringTest.j

2020-12-30 20:42:46 2832 2

原创 Flink自定义format，实现解析kafka自定义格式的cdc数据

flink自定义format，解析cdc数据

2020-11-06 14:38:10 3773

转载通过region文件实现数据迁移，恢复hbase数据

因为要实现hbase的数据迁移，上游直接下发的region文件即图中文件，要在另一个集群上通过该文件将hbase表恢复步骤如下1.在新集群上创建hbase表，列簇同原表2.将region文件移动到新集群hbase的hdfs上该表的路径下，即图中的/hbase/data/default/hbase_test2下3.开启hbase shell，停用该表（disable ‘hbase_test2’）4.【第一次修复】执行命令： hbase hbck -repair “hbase_test2” &g

2020-10-30 10:46:49 450

原创 Sftp上传hdfs文件

仅做记录用package cn.com.xx.sftp;import com.jcraft.jsch.*;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.io.*;import java.uti

2020-10-28 11:09:47 1123

原创 spark2.1.3参数spark.streaming.concurrentJobs大于1报错 KafkaConsumer is not safe fo r multi-threaded access

因为集群比较老，选用的spark为2.1.3版本，消费kafka时发生数据积压现象，在调试过程中，调大启动参数spark.streaming.concurrentJobs发现会报消费者不安全异常，查了好久资料，是官方源码问题，需要改动源码加上线程id，改动的类有两个，代码如下CachedKafkaConsumer/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license a

2020-09-28 14:37:53 748

转载读取kafka offset，保存至zk，并处理kafka.common.OffsetOutOfRangeException，offset过期问题

将kafka的offset保存到zk,当任务因为某些原因终止，一段时间内没有发现，再次重启会发生offset越界问题，是因为zk中保存到offset已过期，所以，任务启动时应该做一次判断，将kafka最小的offset与zk中的比较，如果kafka最小的offset还要比zk中保存的大，此时应该从kafka的offset加一点偏移量开始消费，我这边由于数据量比较大，偏移量为50wimport java.util.Propertiesimport kafka.utils.{ZKGroupTopicDir

2020-08-21 11:02:30 558

原创 java实现读取文件，通过bulkprocesser入库有用户名密码验证的ES

我尽量写的详细一点，从主函数开始main没啥东西，就是一个方法的调用path：制表符分割的csv文件ip：es的ip地址port：9200，看到网上很多说bulkprocessor用9300的，但是我用一直报错，两个都试一下吧args[2]:ES的用户名args[3]:ES的密码readcsv readcsv = new readcsv();readcsv.readCsv(path,ip,port,args[2],args[3]);readcsvpublic class readcsv

2020-08-14 09:59:29 540

原创 flink DataStream[Row]注册为table报错：An input of GenericTypeInfo＜Row＞ cannot be converted to Table.

读取test.csv的内容，map将内容转换为Row类型，然后注册为tableval stream = env.readFile(inputFormat,"D://test.csv",FileProcessingMode.val stream = val stream = env.readFile(inputFormat,"D://fsimage.csv",FileProcessingMode.PROCESS_CONTINUOUSLY,1000L).setParallelism(1)val strea

2020-07-31 17:12:17 1770

qq_40498209的博客