flink-sql对kafka数据进行清洗过滤

本文介绍如何使用Flink SQL从Kafka源topic中筛选特定服务的日志信息并转发至目标topic。通过定义正则表达式匹配ServiceA至ServiceD的服务日志,实现简单高效的数据过滤。

今天这篇blog主要记录使用flink-sql对kafka中的数据进行过滤。

以前对kafka数据进行实时处理时都是使用java来进行flink开发,需要创建一个工程,并且打成jar包再提交,流程固定但对于简单任务来说还是比较繁琐的。

今天我们要对logstash采集到kafka中的数据进行过滤筛选,将筛选后的数据发送给另外一个kafka topic,由于处理逻辑比较简单,使用flink自带的sql函数就可以搞定,所以我们今天就用flink-sql来解决这问题。

问题描述

我们需要筛选出ServiceA、ServiceB、ServiceC、ServiceD四个类打印出来的日志信息,并将目标信息发送到另外一个kafka topic。logstash推送到kafka中的日志格式如下,日志信息均在message字段中。

{
    "@version": "1",
    "@timestamp": "2022-11-18T08:11:33.000Z",
    "host": "localhost",
    "message": "ServiceX XXXX",
    "uid": 3081609001,
    "type": "xxx"
}

环境说明

flink 1.13.6

重要文档

flink-sql内置函数官方文档

flink kafka connector官方文档

实现代码

--sourceTable
CREATE TABLE omg_log(
    message VARCHAR
) WITH (
    'connector' = 'kafka',
    'topic' = 'source-topic',
    'properties.bootstrap.servers' = 'localhost:9092',
    'properties.group.id' = 'group_id',
    'properties.security.protocol' = 'SASL_PLAINTEXT',
    'properties.sasl.mechanism' = 'PLAIN',
    'properties.sasl.jaas.config' = 'org.apache.kafka.common.security.plain.PlainLoginModule required username="username" password="password";',
    'scan.startup.mode' = 'group-offsets',
    'format' = 'json',
    'json.ignore-parse-errors' = 'true'
);

--sinkTable
CREATE TABLE omg_log_sink (
    message VARCHAR
) WITH (
    'connector' = 'kafka',
    'topic' = 'target-topic',
    'properties.bootstrap.servers' = 'loaclhost:9093',
    'properties.security.protocol' = 'SASL_PLAINTEXT',
    'properties.sasl.mechanism' = 'PLAIN',
    'properties.sasl.jaas.config' = 'org.apache.kafka.common.security.plain.PlainLoginModule required username="username" password="password";',
    'format' = 'csv'
);

--filter and insert 
INSERT INTO omg_log_sink(message)
SELECT message
FROM omg_log
where REGEXP(message,'ServiceA|ServiceB|ServiceC|ServiceD')
;
### 如何在阿里云 Flink 上进行实时数据清洗 #### 数据清洗概述 数据清洗是指对原始数据中的噪声、错误和不一致的部分进行修正或删除的过程,从而提高数据质量并使其更适合后续的分析工作。在阿里云 Flink 中,可以通过编写自定义函数或者利用内置算子完成这一过程[^1]。 #### 实现步骤说明 以下是基于阿里云 Flink 和 Hologres 的实时数据清洗的一个典型实现方式: 1. **数据源接入** 使用 Flink 提供的 Source 接口连接到各种数据源(如 Kafka、MySQL Binlog),并将这些数据作为输入流引入 Flink 流处理程序中[^5]。 2. **数据预处理** 对接收到的数据执行初步过滤操作,去除明显不符合条件的数据记录。这一步通常涉及简单的 SQL 查询语句或 Java/Scala 函数逻辑[^3]。 3. **字段转换与映射** 将某些特定列名改写成更易于理解的形式,并调整其格式以满足下游系统的期望标准。例如日期字符串可能需要被解析为 Timestamp 类型对象以便于进一步的时间序列运算[^4]。 4. **去重及异常检测** 利用 KeyBy 转换来识别重复项以及潜在的脏数据条目;同时还可以设置窗口机制来限定时间范围内的唯一性判断依据。 5. **结果输出** 经过上述各阶段后的干净数据最终会被发送至目标存储系统——这里推荐使用高性能在线交互式查询引擎 Hologres 来承载经过清洗之后的结果集[^2]。 #### 示例代码展示 下面给出一段 Python 版本关于如何利用 PyFlink 完成基本数据清理工作的例子: ```python from pyflink.dataset import ExecutionEnvironment from pyflink.table import StreamTableEnvironment, DataTypes from pyflink.table.descriptors import Schema, OldCsv, FileSystem # 初始化环境变量 exec_env = ExecutionEnvironment.get_execution_environment() t_env = StreamTableEnvironment.create(exec_env) # 设置source路径及相关参数 t_env.connect(FileSystem().path('/input')) .with_format(OldCsv() .field('f0', DataTypes.STRING()) .field('f1', DataTypes.DOUBLE())) .with_schema(Schema() .field('word', DataTypes.STRING()) .field('count', DataTypes.BIGINT())) .register_table_source("mySource") # 执行简单变换操作 result = t_env.from_path("mySource") \ .select("word.lowerCase(), count * 2 as doubledCount") # 输出到指定位置 t_env.to_append_stream(result, Row).print() # 启动作业运行 t_env.execute("data_cleaning_job") ``` 此脚本展示了从文件读取原始日志行,对其进行标准化大小写的修改后再加倍计数值这样一个流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值