Python——脚本实现datax全量同步mysql到hive

原创

已于 2024-10-22 19:55:26 修改 · 1.3k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #mysql #hive

于 2024-10-22 19:52:28 首次发布

文章目录

前言
一、展示脚本
二、使用准备
三、脚本使用方法

前言

在我们构建离线数仓时或者迁移数据时，通常选用sqoop和datax等工具进行操作，sqoop和datax各有优点，datax优点也很明显，基于内存，所以速度上很快，那么在进行全量同步时编写json文件是一项很繁琐的事，是否可以编写脚本来把繁琐事来简单化，接下来我将分享这样一个mysql全量同步到hive自动生成json文件的python脚本。

一、展示脚本

# coding=utf-8
import json
import getopt
import os
import sys
import pymysql

# MySQL 相关配置，需根据实际情况作出修改
mysql_host = "XXXXXX"
mysql_port = "XXXX"
mysql_user = "XXX"
mysql_passwd = "XXXXXX"

# HDFS NameNode 相关配置，需根据实际情况作出修改
hdfs_nn_host = "XXXXXX"
hdfs_nn_port = "XXXX"

# 生成配置文件的目标路径，可根据实际情况作出修改
output_path = "/XXX/XXX/XXX"


def get_connection():
    return pymysql.connect(host=mysql_host, port=int(mysql_port), user=mysql_user, password=mysql_passwd)


def get_mysql_meta(database, table):
    connection = get_connection()
    cursor = connection.cursor()
    sql = "SELECT COLUMN_NAME,DATA_TYPE from information_schema.COLUMNS WHERE TABLE_SCHEMA=%s AND TABLE_NAME=%s ORDER BY ORDINAL_POSITION"
    cursor.execute(sql, [database, table])
    fetchall = cursor.fetchall()
    cursor.close()
    connection.close()
    return fetchall


def get_mysql_columns(database, table):
    return list(map(lambda x: x[0], get_mysql_meta