实时数据集成PG到HDFS--数据一致性校验

本文介绍了一种实时数据一致性监控方案,旨在解决实时抽取数据存在的误差问题。通过对比源库和目标库的数据量,利用定时任务和多线程处理,实现了对多个数据库表的实时监控,并在数据量不一致时触发告警。

一、背景

      目前实时抽数系统不太稳定,数据库、kafka、网络等问题,导致实时抽取的数据存在误差。

二、方案

      方案一:监控kafka采集的数量与spark streaming从kafka消费的数量(不能保证源库和目标库的数量一致);

      方案二:监控源库当天截止到某时的数量与目标库当日分区截止某时的数量;

      方案三:监控源库截止到某时的数量与目标库增量合并后截止到某时的数量(数据量会比较大);

三、设计

采用方案二

1、创建两张表:数据库配置、表配置

  • 数据库配置:主要包括源库ip、端口、库名、用户名、密码(加密),通常配从库的;
  • 表配置:主要包括源表名、目标表名、数据库配置id、主键、增量时间、是否开启监控;

2、开发加解密工具类--使用AES算法;

3、开发定时任务

  • jdbc连接配置库查询需要监控的表;
  • 线程池开启多线程处理业务逻辑;
  • 查询源库数量;
  • 查询目标库hive数量;
  • 比较两者,若不同调告警接口;

四、实现

AES加解密工具类:

package com.aaaaa.realtimeappmonitor.jobstatetrack.util;

import sun.misc.BASE64Decoder;
import sun.misc.BASE64Encoder;

import javax.crypto.Cipher;
import javax.crypto.KeyGenerator;
import java.security.Key;
import java.security.SecureRandom;

/**
 * Description AES加密解密工具类
 *
 * @author Bob
 * @date 2020/4/26
 **/
public class AESUtil {

    public static String CIPHER_ALGORITHM = "AES"; // optional value AES/DES/DESede

    public static Key getKey(String strKey) {
        try {
            if (strKey == null) {
                strKey = "";
            }
            KeyGenerator _generator = KeyGenerator.getInstance("AES");
            SecureRandom secureRandom = SecureRandom.getInstance("SHA1PRNG");
            secureRandom.setSeed(strKey.getBytes());
            _generator.init(128, secureRandom);
            return _generator.generateKey();
        } catch (Exception e) {
            throw new RuntimeException(" 初始化密钥出现异常 ");
        }
    }


    public static String encrypt(String data, String key) throws Exception {
        SecureRandom sr = new SecureRandom();
        Key secureKey = getKey(key);
        Cipher cipher = Cipher.getInstance(CIPHER_ALGORITHM);
        cipher.init(Cipher.ENCRYPT_MODE, secureKey, sr);
        byte[] bt = cipher.doFinal(data.getBytes());
        String strS = new BASE64Encoder().encode(bt);
        return strS;
    }


    public static String decrypt(String message, String key) {
        try {
            SecureRandom sr = new SecureRandom();
            Cipher cipher = Cipher.getInstance(CIPHER_ALGORITHM);
            Key secureKey = getKey(key);
            cipher.init(Cipher.DECRYPT_MODE, secureKey, sr);
            byte[] res = new BASE64Decoder().decodeBuffer(message);
            res = cipher.doFinal(res);
            return new String(res);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }

}

定时任务:

package com.aaaa.realtimeappmonitor.jobstatetrack.task;

import com.google.common.collect.Lists;
import com.aaaa.realtimeappmonitor.jobstatetrack.model.TableDbConfigInfo;
import com.aaaa.realtimeappmonitor.jobstatetrack.util.AESUtil;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import org.springframework.web.client.RestClientException;
import org.springframework.web.client.RestTemplate;

import java.sql.*;
import java.text.SimpleDateFormat;
import java.util.*;
import java.util.Date;
import java.util.concurrent.LinkedBlockingDeque;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;

/**
 * Description 源库与落地库数据量监控(方案一)
 * 方案一:统计源库当天截止某时数量,比较增量当日分区截止某时数量
 * 方案二:统计源库截止某时数量,比较合并后全库截止某时数量
 * 说明:只能用create_time筛选,加上update_time的话基本对不上
 *
 * @author Bob
 * @date 2020/4/23
 **/
@Slf4j
@Component
public class StatisticMonitorTask {

    @Value("${dat
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值