FlinkSQL MySQL维表关联

最新推荐文章于 2025-03-08 19:28:28 发布

訾零

最新推荐文章于 2025-03-08 19:28:28 发布

阅读量2.4k

点赞数 1

分类专栏： Flink 文章标签： flink

本文链接：https://blog.youkuaiyun.com/lingeio/article/details/109221881

版权

该博客介绍了如何使用Flink SQL处理Kafka数据，包括数据清洗、维表关联以及结果数据写回Kafka。通过设置Flink环境、配置参数、定义UDF函数以及创建Kafka和MySQL的源表与Sink表，实现了从Kafka消费数据，进行MySQL维表的Temporal Join操作，并将处理后的数据重新发布到Kafka。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：消费Kafka数据，进行数据清洗及维表关联补齐字段，结果数据写入Kafka。

import java.time.Duration

import com.sm.function.udf._
import com.sm.common.conf.PropManager
import com.sm.constants.Constants
import com.sm.utils.FlinkUtils
import org.apache.flink.api.common.restartstrategy.RestartStrategies
import org.apache.flink.api.common.time.Time
import org.apache.flink.streaming.api.environment.{CheckpointConfig, ExecutionCheckpointingOptions}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}
import org.apache.flink.table.api.bridge.scala.StreamTableEnvironment
import org.apache.log4j.Level
import org.slf4j.LoggerFactory

/**
  * flink sql 维表关联
  * 消费kafka, MySQL维表关联, 结果写入kafka
  *
  * create by LiuJinHe 2020/10/22
  */
object LoginEtlKafka2Kafka {
  private var logger: org.slf4j.Logger = _

  def main(args: Array[String]): Unit = {
    logger = LoggerFactory.getLogger(this.getClass.getSimpleName)
    org.apache.log4j.Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
    org.apache.log4j.Logger.getLogger("org.apache").setLevel(Level.INFO)

    // 初始化 stream 环境
    // 本地测试，需要 flink-runtime-web 依赖
    //   val env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI()
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    // 本地测试线程 1
    //    env.setParallelism(1)

    //    val params = ParameterTool.fromArgs(args)
    //    env.getConfig.setGlobalJobParameters(params)

    // 失败重启,固定间隔,每隔3秒重启1次,总尝试重启10次
    env.setRestartStrategy(RestartStrategies.fixedDelayRestart(10, 3))

    // 事件处理的时间，由系统时间决定
    env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime)

    // 创建 streamTable 环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env, FlinkUtils.getSettings)
    //    tableConfig.setIdleStateRetentionTime(Time.hours(12), Time.hours(24))

    // checkpoint 设置
    val tableConfig = tableEnv.getConfig.getConfiguration
    tableConfig.set(ExecutionCheckpointingOptions.CHECKPOINTING_MODE, CheckpointingMode.EXACTLY_ONCE)
    // checkpoint的超时时间周期，1 分钟做一次checkpoint, 每次checkpoint 完成后 sink 才会执行
    tableConfig.set(ExecutionCheckpointingOptions.CHECKPOINTING_INTERVAL, Duration.ofSeconds(60))
    // checkpoint的超时时间, 检查点一分钟内没有完成将被丢弃
    tableConfig.set(ExecutionCheckpointingOptions.CHECKPOINTING_TIMEOUT, Duration.ofSeconds(60))
    // checkpoint 最小间隔，两个检查点之间至少间隔 30 秒
    tableConfig.set(ExecutionCheckpointingOptions.MIN_PAUSE_BETWEEN_CHECKPOINTS, Duration.ofSeconds(30))
    // 同一时间只允许进行一个检查点
    tableConfig.set(ExecutionCheckpointingOptions.MAX_CONCURRENT_CHECKPOINTS, Integer.valueOf(1))
    // 手动cancel时是否保留checkpoint
    tableConfig.set(ExecutionCheckpointingOptions.EXTERNALIZED_CHECKPOINT,
      CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)

    // 设置状态的最小空闲时间和最大的空闲时间
    tableEnv.getConfig.setIdleStateRetentionTime(Time.hours(12), Time.hours(24))

    tableConfig.setString("table.exec.mini-batch.enabled", "true")
    tableConfig.setString("table.exec.mini-batch.allow-latency", "2s")
    tableConfig.setString("table.exec.mini-batch.size", "5000")
    tableConfig.setString("table.optimizer.distinct-agg.split.enabled", "true")

    // 测试
    //    val odsLoginTopic = "ods_login"
    //    val bootstrapServers = "192.168.100.39:9092&#