Kafka-异构数据库迁移(MYSQL迁移PG)

最新推荐文章于 2025-09-27 11:08:52 发布

原创最新推荐文章于 2025-09-27 11:08:52 发布 · 403 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #kafka #mysql #云原生 #分布式 #python #pgsql

Kafka - 分布式流处理平台专栏收录该内容

20 篇文章

订阅专栏

作者介绍：简历上没有一个精通的运维工程师。请点击上方的蓝色《运维小路》关注我，下面的思维导图也是预计更新的内容和当前进度(不定时更新)。

中间件，我给它的定义就是为了实现某系业务功能依赖的软件，包括如下部分:

Web服务器

代理服务器

ZooKeeper

Kafka（本章节）

在我以前的工作中遇到过多次数据库迁移，如果数据库是一样的，其实相对都是比较简单的。因为基本上都可用利用数据库自身的同步原理就可以实现，但是现实中还有需求就是异构数据库的迁移。就好比Oracle到MYSQL，当然这里我为了简单，我这里用了简单的MYSQL迁移到PG。

原理

生产者从MYSQL读取数据，然后写入Kafka集群。

消费者从Kafka里面消费数据，然后写入PG数据库。

环境准备

一个MYSQL数据库，里面有一个库，一个表，表里面有部分数据。

一个PG数据库，里面已经提前创建了和MYSQL同样的库表（无数据）。

一个Kafka集群。

实施

生产者

生产者代码，这里为了省事，把数据库信息和Kafka信息都直接写在代码里面，由于临时测试，甚至没有手工创建Topic。以下代码使用DeepSeek生成。

# mysql_to_kafka_producer.py
import json
import time
from mysql.connector import connect
from kafka import KafkaProducer
class MysqlKafkaProducer:
    def __init__(self):
        # ========== 硬编码配置 ==========
        self.mysql_config = {
            'host': 'localhost',
            'user': 'root',
            'password': '@Cc123456',
            'database': 'testdb'
        }
        self.kafka_config = {
            'bootstrap_servers': ['192.168.31.143:9092'],
            'topic': 'user-migration-topic'
        }
        # ========== 初始化连接 ==========
        self.mysql_conn = connect(**self.mysql_config)
        self.producer = KafkaProducer(
            bootstrap_servers=self.kafka_config['bootstrap_servers'],
            value_serializer=lambda v: json.dumps(v).encode('utf-8'),
            acks=1,
            retries=3
        )
        self.last_id = 0
    def _load_offset(self):
        """简单模拟断点记录"""
        try:
            with open('last_id.txt', 'r') as f:
                self.last_id = int(f.read().strip())
        except:
            pass
    def _save_offset(self):
        with open('last_id.txt', 'w') as f:
            f.write(str(self.last_id))
    def run(self):
        self._load_offset()
        cursor = self.mysql_conn.cursor(dictionary=True)
        try:
            while True:
                cursor.execute('''
                    SELECT id, username, email, age, 
                           created_at, updated_at 
                    FROM users 
                    WHERE id > %s 
                    ORDER BY id 
                    LIMIT 100
                ''', (self.last_id,))
                batch = cursor.fetchall()
                if not batch:
                    print("-[INFO]- 没有新数据，等待10秒...")
                    time.sleep(10)
                    continue
                for record in batch:
                    # 转换时间格式
                    record['created_at'] = record['created_at'].isoformat()
                    record['updated_at'] = record['updated_at'].isoformat()
                    self.producer.send(
                        topic=self.kafka_config['topic'],
                        key=str(record['id']).encode(),
                        value=record
                    )
                    self.last_id = record['id']
                self.producer.flush()
                self._save_offset()
                print(f"-已同步至ID: {self.last_id}-")
        finally:
            cursor.close()
            self.mysql_conn.close()
            self.producer.close()
if __name__ == '__main__':
    print(">>> 启动MySQL到Kafka的生产者 <<<")
    MysqlKafkaProducer().run()

#Kafka日志 显示创建Topic数据 
[2025-05-25 00:11:56,271] INFO Creating topic user-migration-topic with configuration {} and initial partition assignment HashMap(0 -> ArrayBuffer(0)) (kafka.zk.AdminZkClient)
[2025-05-25 00:11:56,383] INFO [ReplicaFetcherManager on broker 0] Removed fetcher for partitions Set(user-migration-topic-0) (kafka.server.ReplicaFetcherManager)
[2025-05-25 00:11:56,391] INFO [Log partition=user-migration-topic-0, dir=/tmp/kafka-logs] Loading producer state till offset 0 with message format version 2 (kafka.log.Log)
[2025-05-25 00:11:56,394] INFO Created log for partition user-migration-topic-0 in /tmp/kafka-logs/user-migration-topic-0 with properties {} (kafka.log.LogManager)
[2025-05-25 00:11:56,395] INFO [Partition user-migration-topic-0 broker=0] No checkpointed highwatermark is found for partition user-migration-topic-0 (kafka.cluster.Partition)
[2025-05-25 00:11:56,395] INFO [Partition user-migration-topic-0 broker=0] Log loaded for partition user-migration-topic-0 with initial high watermark 0 (kafka.cluster.Partition)

运行程序就会开始读取数据到Kafka。当然这里有很多坑，如果只是为了演示是没有问题的。

[root@localhost ~]# python3 prod.py 
>>> 启动MySQL到Kafka的生产者 <<<
-已同步至ID: 100-
-[INFO]- 没有新数据，等待10秒...
-[INFO]- 没有新数据，等待10秒...
-[INFO]- 没有新数据，等待10秒...

消费者

消费者代码，从Kafka里面的Topic数据，然后写入本地的PG数据库。以下代码基于通义生成（我都是几个AI混合到一起用）。

import json
import time
import psycopg2
from kafka import KafkaConsumer
from datetime import datetime
from dateutil import parser  # 新增日期解析库

class KafkaPostgresConsumer:
    def __init__(self):
        # ========== 硬编码配置 ==========
        self.kafka_config = {
            'bootstrap_servers': ['192.168.31.143:9092'],
            'topic': 'user-migration-topic',
            'group_id': 'user-migration-group1'
        }

        self.pg_config = {
            'host': 'localhost',
            'port': 5432,
            'user': 'postgres',
            'password': 'your_pg_password',
            'database': 'migration_db'
        }

        # ========== 初始化连接 ==========
        self.consumer = KafkaConsumer(
            self.kafka_config['topic'],
            bootstrap_servers=self.kafka_config['bootstrap_servers'],
            group_id=self.kafka_config['group_id'],
            auto_offset_reset='earliest',  # 从最早的消息开始消费
            enable_auto_commit=False,      # 手动提交偏移量
            value_deserializer=lambda v: json.loads(v.decode('utf-8'))
        )

        self.pg_conn = psycopg2.connect(**self.pg_config)
        self.pg_cursor = self.pg_conn.cursor()

        # 创建目标表（如果不存在）
        self._create_table()

    def _create_table(self):
        """确保目标表存在"""
        create_table_sql = """
        CREATE TABLE IF NOT EXISTS users (
            id INTEGER PRIMARY KEY,
            username VARCHAR(50) NOT NULL,
            email VARCHAR(100) UNIQUE NOT NULL,
            age INTEGER,
            created_at TIMESTAMP NOT NULL,
            updated_at TIMESTAMP NOT NULL,
            kafka_consumed_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        )
        """
        try:
            self.pg_cursor.execute(create_table_sql)
            self.pg_conn.commit()
            print("-目标表已创建/验证-")
        except Exception as e:
            print(f"! 创建表失败: {str(e)} !")
            self.pg_conn.rollback()

    def _insert_or_update_record(self, record):
        """插入或更新PG记录（UPSERT操作）"""
        upsert_sql = """
        INSERT INTO users (id, username, email, age, created_at, updated_at)
        VALUES (%s, %s, %s, %s, %s, %s)
        ON CONFLICT (id) DO UPDATE 
        SET 
            username = EXCLUDED.username,
            email = EXCLUDED.email,
            age = EXCLUDED.age,
            updated_at = EXCLUDED.updated_at
        """
        try:
            # 使用 dateutil 解析 ISO 格式日期（兼容 Python 3.6）
            created_at = parser.isoparse(record['created_at'])
            updated_at = parser.isoparse(record['updated_at'])

            self.pg_cursor.execute(upsert_sql, (
                record['id'],
                record['username'],
                record['email'],
                record['age'],
                created_at,
                updated_at
            ))
            return True
        except Exception as e:
            print(f"! 处理记录失败 (ID: {record.get('id', 'N/A')}): {str(e)} !")
            self.pg_conn.rollback()
            return False

    def run(self):
        """主循环：从Kafka消费并写入PostgreSQL"""
        print(f"-开始消费主题: {self.kafka_config['topic']}-")
        processed_count = 0
        batch_size = 100  # 每处理多少条记录后提交一次

        try:
            while True:
                # 使用轮询方式获取消息（非阻塞）
                batch = self.consumer.poll(timeout_ms=5000, max_records=batch_size)

                if not batch:
                    print("-[INFO]- 等待新数据中...")
                    time.sleep(2)
                    continue

                for tp, messages in batch.items():
                    for message in messages:
                        record = message.value
                        if self._insert_or_update_record(record):
                            processed_count += 1

                    # 手动提交偏移量（处理完一个分区批次后）
                    self.consumer.commit()

                # 定期提交事务（每批处理完）
                self.pg_conn.commit()
                print(f"-已处理 {processed_count} 条记录，最后ID: {record['id']}-")
                processed_count = 0  # 重置计数器

        except KeyboardInterrupt:
            print("\n-用户中断，退出程序-")
        except Exception as e:
            print(f"! 发生错误: {str(e)} !")
        finally:
            # 确保最后提交
            self.pg_conn.commit()

            # 清理资源
            self.consumer.close()
            self.pg_cursor.close()
            self.pg_conn.close()
            print("-资源已释放-")

if __name__ == '__main__':
    print(">>> 启动 Kafka 到 PostgreSQL 数据同步消费者 <<<")
    try:
        KafkaPostgresConsumer().run()
    except Exception as e:
        print(f"!! 启动失败: {str(e)} !!")

启动消费者

[root@localhost ~]# python3 cour.py 
>>> 启动 Kafka 到 PostgreSQL 数据同步消费者 <<<
-目标表已创建/验证-
-开始消费主题: user-migration-topic-
-已处理 100 条记录，最后ID: 300-
-[INFO]- 等待新数据中...
-[INFO]- 等待新数据中...
-[INFO]- 等待新数据中...

本次演示只是为大家提供Kafka的解决问题的思路。