Pathway项目Kafka连接器使用指南-优快云博客

Pathway项目Kafka连接器使用指南

pathway Pathway is an open framework for high-throughput and low-latency real-time data processing. 项目地址: https://gitcode.com/gh_mirrors/pa/pathway

概述

Pathway作为一个实时数据流处理框架，提供了与Kafka集成的能力。本文将详细介绍如何在Pathway项目中使用Kafka连接器进行数据的输入输出操作。

Kafka连接器基础

Pathway通过pw.io.kafka模块提供了与Kafka交互的功能，包含两个主要组件：

pw.io.kafka.read：从Kafka主题读取数据
pw.io.kafka.write：将处理结果写入Kafka主题

注意：这些连接器仅在流式模式下工作，不支持静态模式。

快速入门示例

让我们从一个简单的场景开始：从Kafka主题connector_example读取包含单列value的CSV格式数据，计算这些值的总和，并将结果写入到sum主题。

import pathway as pw

# Kafka连接配置
rdkafka_settings = {
    "bootstrap.servers": "server-address:9092",
    "security.protocol": "sasl_ssl",
    "sasl.mechanism": "SCRAM-SHA-256",
    "group.id": "$GROUP_NAME",
    "session.timeout.ms": "6000",
    "sasl.username": "username",
    "sasl.password": "********",
}

# 定义输入数据模式
class InputSchema(pw.Schema):
    value: int

# 从Kafka读取数据
t = pw.io.kafka.read(
    rdkafka_settings,
    topic="connector_example",
    schema=InputSchema,
    format="csv",
    autocommit_duration_ms=1000
)

# 计算总和
t = t.reduce(sum=pw.reducers.sum(t.value))

# 将结果写入Kafka
pw.io.kafka.write(t, rdkafka_settings, topic_name="sum", format="json")

# 启动计算
pw.run()

输入连接器详解

数据流特性

Kafka输入连接器处理的是持续不断的数据流，具有以下特点：

更新以消息集合的形式出现
通过提交(commit)确保更新的原子性
提交按配置的时间间隔定期触发

关键参数说明

pw.io.kafka.read方法接受以下重要参数：

rdkafka_settings：Kafka连接配置，遵循librdkafka格式
topic：监听的Kafka主题
format：数据格式，支持raw、csv和json
schema：当格式非raw时，定义表结构和列类型
autocommit_duration_ms：两次提交间的最大时间间隔(毫秒)

数据格式处理

不同数据格式的处理方式：

raw格式：
- 所有数据存入单一data列
- 不需要定义schema
csv格式：
- 需要schema定义列名和类型
- 第一条消息必须包含以逗号分隔的列名头
- 后续消息包含实际数据
json格式：
- 需要schema定义
- 消息应为符合schema的JSON对象

重要提示：对于csv格式，头信息只需发送一次，重复发送会导致处理异常。

输出连接器详解

pw.io.kafka.write方法将表更新发送到指定Kafka主题，当前支持以下格式：

binary：二进制格式
json：JSON格式(最常用)
dsv：分隔符分隔值(CSV的泛化形式)

输出配置示例

pw.io.kafka.write(
    t, 
    rdkafka_settings, 
    topic_name="sum", 
    format="json"
)

完整应用示例

数据处理程序(realtime_sum.py)

import pathway as pw

# Kafka配置
rdkafka_settings = {
    "bootstrap.servers": "server-address:9092",
    "security.protocol": "sasl_ssl",
    "sasl.mechanism": "SCRAM-SHA-256",
    "group.id": "$GROUP_NAME",
    "session.timeout.ms": "6000",
    "sasl.username": "username",
    "sasl.password": "********",
}

class InputSchema(pw.Schema):
    value: int

# 读取Kafka数据
t = pw.io.kafka.read(
    rdkafka_settings,
    topic="connector_example",
    format="csv",
    schema=InputSchema,
    autocommit_duration_ms=1000
)

# 计算逻辑
t = t.reduce(sum=pw.reducers.sum(t.value))

# 输出结果
pw.io.kafka.write(t, rdkafka_settings, topic_name="sum", format="json")

# 启动处理
pw.run()

数据生成程序(generate_stream.py)

from kafka import KafkaProducer
import time

topic = "connector_example"

producer = KafkaProducer(
    bootstrap_servers=["server-address:9092"],
    sasl_mechanism="SCRAM-SHA-256",
    security_protocol="SASL_SSL",
    sasl_plain_username="username",
    sasl_plain_password="********",
    api_version=(0,10,2)  # 根据Kafka版本可能需要
)

# 发送表头
producer.send(topic, "value".encode("utf-8"), partition=0)

# 发送数据
time.sleep(5)
for i in range(10):
    time.sleep(1)
    producer.send(topic, str(i).encode("utf-8"), partition=0)

producer.close()