Linux中DataX使用第四期

 简介

  紧接着上期关于定义如何一个简单的插件,本期了解下关系型数据库的数据读取和数据写入。

环境

  •  Windows10 (linux中命令相似,为了方面调试就用windows的)
  • JDK(1.8以上,推荐1.8)
  • Python(2或3都可以)
  • Apache Maven (推荐3.x版本)
  • IntelliJ IDEA 2023.2.2 (IDE没要求,能打开maven项目就行)
  • 源码下载地址

内容

  DataX运行的时序图

  •   对于关系型数据库DataX内有一个公共的调用工具。

CommonRdbmsReader

包含两个内部类JobTask的公共类,分别用于处理作业级别和任务级别的操作。

Job负责作业的初始化、预检查、拆分、以及作业结束时的清理工作。

  • init(Configuration originalConfig): 初始化作业配置。
  • preCheck(Configuration originalConfig, DataBaseType dataBaseType): 预检查数据库连接和查询语句的有效性。
  • split(Configuration originalConfig, int adviceNumber): 将作业拆分为多个任务。
  • post(Configuration originalConfig)destroy(Configuration originalConfig): 作业结束时的清理工作。

Task负责单个任务的初始化、数据读取和任务结束时的清理工作。

  • init(Configuration readerSliceConfig): 初始化任务配置,包括数据库连接信息。
  • startRead(Configuration readerSliceConfig, RecordSender recordSender, TaskPluginCollector taskPluginCollector, int fetchSize): 开始读取数据,执行查询并将结果发送到记录发送器。
  • post(Configuration originalConfig)destroy(Configuration originalConfig): 任务结束时的清理工作。
  • transportOneRecord(RecordSender recordSender, ResultSet rs, ResultSetMetaData metaData, int columnNumber, String mandatoryEncoding, TaskPluginCollector taskPluginCollector): 处理并传输一条记录。
  • buildRecord(RecordSender recordSender, ResultSet rs, ResultSetMetaData metaData, int columnNumber, String mandatoryEncoding, TaskPluginCollector taskPluginCollector): 根据结果集构建记录。
核心代码
 public void startRead(Configuration readerSliceConfig,
                              RecordSender recordSender,
                              TaskPluginCollector taskPluginCollector, int fetchSize) {
            // 从配置中获取查询SQL语句
            String querySql = readerSliceConfig.getString(Key.QUERY_SQL);
            // 从配置中获取表名
            String table = readerSliceConfig.getString(Key.TABLE);

            // 将任务详情添加到性能跟踪实例中
            PerfTrace.getInstance().addTaskDetails(taskId, table + "," + basicMsg);

            // 打印日志,表示开始读取记录
            LOG.info("Begin to read record by Sql: [{}\n] {}.",
                    querySql, basicMsg);
            // 创建一个性能记录对象,记录SQL查询阶段
            PerfRecord queryPerfRecord = new PerfRecord(taskGroupId,taskId, PerfRecord.PHASE.SQL_QUERY);
            queryPerfRecord.start();

            // 获取数据库连接
            Connection conn = DBUtil.getConnection(this.dataBaseType, jdbcUrl,
                    username, password);

            // session config .etc related
            DBUtil.dealWithSessionConfig(conn, readerSliceConfig,
                    this.dataBaseType, basicMsg);

            int columnNumber = 0;
            ResultSet rs = null;
            try {
                rs = DBUtil.query(conn, querySql, fetchSize);
                queryPerfRecord.end();

                ResultSetMetaData metaData = rs.getMetaData();
                columnNumber = metaData.getColumnCount();

                //这个统计干净的result_Next时间
                PerfRecord allResultPerfRecord = new PerfRecord(taskGroupId, taskId, PerfRecord.PHASE.RESULT_NEXT_ALL);
                allResultPerfRecord.start();

                long rsNextUsedTime = 0;
                long lastTime = System.nanoTime();
                while (rs.next()) {
                    rsNextUsedTime += (System.nanoTime() - lastTime);
                    this.transportOneRecord(recordSender, rs,
                            metaData, columnNumber, mandatoryEncoding, taskPluginCollector);
                    lastTime = System.nanoTime();
                }

                allResultPerfRecord.end(rsNextUsedTime);
                //目前大盘是依赖这个打印,而之前这个Finish read record是包含了sql查询和result next的全部时间
                LOG.info("Finished read record by Sql: [{}\n] {}.",
                        querySql, basicMsg);

            }catch (Exception e) {
                throw RdbmsException.asQueryException(this.dataBaseType, e, querySql, table, username);
            } finally {
                DBUtil.closeDBResources(null, conn);
            }
        }

这段Java代码是一个数据库读取任务的核心实现,用于从数据库中读取数据。它实现了startRead方法,该方法接收几个参数,包括配置信息、记录发送器、任务插件收集器以及每次查询的记录数。

方法参数
  • readerSliceConfig:包含数据库连接和查询配置的Configuration对象。
  • recordSender:用于发送读取到的记录的对象。
  • taskPluginCollector:用于收集任务插件的错误信息的对象。
  • fetchSize:每次查询数据库时获取的记录数。
1.变量初始化
  • 从配置中获取SQL查询语句和表名。
String querySql = readerSliceConfig.getString(Key.QUERY_SQL);
String table = readerSliceConfig.getString(Key.TABLE);
2.性能跟踪
  • 使用PerfTracePerfRecord进行性能跟踪,记录任务开始时间和详细信息。
PerfTrace.getInstance().addTaskDetails(taskId, table + "," + basicMsg);
LOG.info("Begin to read record by Sql: [{}\n] {}.", querySql, basicMsg);
PerfRecord queryPerfRecord = new PerfRecord(taskGroupId, taskId, PerfRecord.PHASE.SQL_QUERY);
queryPerfRecord.start();
3.数据库连接
  • 使用DBUtil工具类获取数据库连接,并根据配置处理会话配置。
Connection conn = DBUtil.getConnection(this.dataBaseType, jdbcUrl, username, password);
DBUtil.dealWithSessionConfig(conn, readerSliceConfig, this.dataBaseType, basicMsg);
4.查询数据库
  • 执行SQL查询并获取结果集,记录查询结束时间,获取结果集的元数据(列数)。
int columnNumber = 0;
ResultSet rs = null;
try {
    rs = DBUtil.query(conn, querySql, fetchSize);
    queryPerfRecord.end();
    ResultSetMetaData metaData = rs.getMetaData();
    columnNumber = metaData.getColumnCount();
5.读取结果集
  • 使用while循环遍历结果集,记录每条记录的读取时间,并通过transportOneRecord方法发送记录。
  • transportOneRecord表示从数据库查询结果集中读取数据,并根据数据类型将其转换为相应的数据列,最终构建一个完整的记录对象
PerfRecord allResultPerfRecord = new PerfRecord(taskGroupId, taskId, PerfRecord.PHASE.RESULT_NEXT_ALL);
allResultPerfRecord.start();
long rsNextUsedTime = 0;
long lastTime = System.nanoTime();
while (rs.next()) {
    rsNextUsedTime += (System.nanoTime() - lastTime);
    this.transportOneRecord(recordSender, rs, metaData, columnNumber, mandatoryEncoding, taskPluginCollector);
    lastTime = System.nanoTime();
}
allResultPerfRecord.end(rsNextUsedTime);
LOG.info("Finished read record by Sql: [{}\n] {}.", querySql, basicMsg);
6.异常处理
  • 捕获异常并抛出自定义的数据库查询异常,最后确保关闭数据库连接。
} catch (Exception e) {
    throw RdbmsException.asQueryException(this.dataBaseType, e, querySql, table, username);
} finally {
    DBUtil.closeDBResources(null, conn);
}
总结

这段代码的主要功能是从数据库中读取数据,并通过性能跟踪记录查询和读取过程的时间。它使用了JDBC来连接和查询数据库,并通过RecordSender发送读取到的记录。代码中还包含了异常处理和资源释放的逻辑,确保在发生异常时能够正确处理并释放数据库连接。

CommonRdbmsWriter

也包含两个内部类JobTask的公共类,分别用于处理作业级别和任务级别的操作。

Job负责作业的初始化、预检查、拆分、以及作业结束时的清理工作。

  • init(Configuration originalConfig):初始化作业配置。
  • writerPreCheck(Configuration originalConfig, DataBaseType dataBaseType):进行写前检查,包括SQL语法检查和权限检查。
  • prepare(Configuration originalConfig):执行作业前的准备工作,如执行预SQL语句。
  • split(Configuration originalConfig, int mandatoryNumber):将作业配置分割成多个任务配置。
  • post(Configuration originalConfig):执行作业后的操作,如执行后SQL语句。
  • destroy(Configuration originalConfig):销毁作业资源。

Task负责单个任务的初始化、数据读取和任务结束时的清理工作。

  • init(Configuration writerSliceConfig):初始化任务配置。
  • prepare(Configuration writerSliceConfig):执行任务前的准备工作。
  • startWriteWithConnection(RecordReceiver recordReceiver, TaskPluginCollector taskPluginCollector, Connection connection):使用给定的数据库连接开始写入数据。
  • startWrite(RecordReceiver recordReceiver, Configuration writerSliceConfig, TaskPluginCollector taskPluginCollector):开始写入数据。
  • post(Configuration writerSliceConfig):执行任务后的操作。
  • destroy(Configuration writerSliceConfig):销毁任务资源。
  • doBatchInsert(Connection connection, List<Record> buffer):批量插入数据。
  • doOneInsert(Connection connection, List<Record> buffer):逐条插入数据。
  • fillPreparedStatement(PreparedStatement preparedStatement, Record record):填充PreparedStatement对象。
  • fillPreparedStatementColumnType(PreparedStatement preparedStatement, int columnIndex, int columnSqltype, String typeName, Column column):根据字段类型填充PreparedStatement对象。
  • calcWriteRecordSql():计算写入记录的SQL语句。
  • calcValueHolder(String columnType):计算值占位符。
核心代码
 public void startWriteWithConnection(RecordReceiver recordReceiver, TaskPluginCollector taskPluginCollector, Connection connection) {
            System.err.println("CommonRdbmsWriter Task startWriteWithConnection");
            this.taskPluginCollector = taskPluginCollector;

            // 用于写入数据的时候的类型根据目的表字段类型转换
            this.resultSetMetaData = DBUtil.getColumnMetaData(connection,
                    this.table, StringUtils.join(this.columns, ","));
            // 写数据库的SQL语句
            calcWriteRecordSql();

            List<Record> writeBuffer = new ArrayList<Record>(this.batchSize);
            int bufferBytes = 0;
            try {
                Record record;
                while ((record = recordReceiver.getFromReader()) != null) {
                    if (record.getColumnNumber() != this.columnNumber) {
                        // 源头读取字段列数与目的表字段写入列数不相等,直接报错
                        throw DataXException
                                .asDataXException(
                                        DBUtilErrorCode.CONF_ERROR,
                                        String.format(
                                                "列配置信息有错误. 因为您配置的任务中,源头读取字段数:%s 与 目的表要写入的字段数:%s 不相等. 请检查您的配置并作出修改.",
                                                record.getColumnNumber(),
                                                this.columnNumber));
                    }

                    writeBuffer.add(record);
                    bufferBytes += record.getMemorySize();

                    if (writeBuffer.size() >= batchSize || bufferBytes >= batchByteSize) {
                        doBatchInsert(connection, writeBuffer);
                        writeBuffer.clear();
                        bufferBytes = 0;
                    }
                }
                if (!writeBuffer.isEmpty()) {
                    doBatchInsert(connection, writeBuffer);
                    writeBuffer.clear();
                    bufferBytes = 0;
                }
            } catch (Exception e) {
                throw DataXException.asDataXException(
                        DBUtilErrorCode.WRITE_DATA_ERROR, e);
            } finally {
                writeBuffer.clear();
                bufferBytes = 0;
                DBUtil.closeDBResources(null, null, connection);
            }
        }
方法参数
  • recordReceiver:用于接收从数据源读取的数据记录。
  • taskPluginCollector:用于收集任务执行过程中的信息,比如错误信息。
  • connection:数据库连接对象,用于与数据库进行交互。
1.初始化任务收集器

将传入的任务收集器赋值给当前对象的成员变量。

this.taskPluginCollector = taskPluginCollector;
2.获取列元数据

调用DBUtil工具类的方法,获取目标表的列元数据,包括列名、类型等。

this.resultSetMetaData = DBUtil.getColumnMetaData(connection, this.table, StringUtils.join(this.columns, ","));
3.计算写入SQL语句

调用方法计算写入数据库的SQL语句。

calcWriteRecordSql();
4.初始化缓冲区

初始化一个记录列表作为缓冲区,用于批量写入数据。

List<Record> writeBuffer = new ArrayList<Record>(this.batchSize);
int bufferBytes = 0;
5.读取并写入数据

  • recordReceiver中读取记录,直到没有更多记录。
  • 检查读取的记录列数是否与目标表列数一致,不一致则抛出异常。
  • 将记录添加到缓冲区,并计算缓冲区的大小。
  • 当缓冲区达到指定大小(行数或字节数)时,调用doBatchInsert方法批量写入数据,并清空缓冲区
Record record;
while ((record = recordReceiver.getFromReader()) != null) {
    if (record.getColumnNumber() != this.columnNumber) {
        throw DataXException.asDataXException(DBUtilErrorCode.CONF_ERROR, String.format("列配置信息有错误. 因为您配置的任务中,源头读取字段数:%s 与 目的表要写入的字段数:%s 不相等. 请检查您的配置并作出修改.", record.getColumnNumber(), this.columnNumber));
    }

    writeBuffer.add(record);
    bufferBytes += record.getMemorySize();

    if (writeBuffer.size() >= batchSize || bufferBytes >= batchByteSize) {
        doBatchInsert(connection, writeBuffer);
        writeBuffer.clear();
        bufferBytes = 0;
    }
}
6.处理剩余记录

如果在读取完所有记录后,缓冲区中还有剩余的记录,则进行最后一次批量写入。

if (!writeBuffer.isEmpty()) {
    doBatchInsert(connection, writeBuffer);
    writeBuffer.clear();
    bufferBytes = 0;
}
7.异常处理

捕获并抛出自定义的DataX异常。

} catch (Exception e) {
    throw DataXException.asDataXException(DBUtilErrorCode.WRITE_DATA_ERROR, e);
}
8.资源清理

清空缓冲区,释放数据库连接资源。

finally {
    writeBuffer.clear();
    bufferBytes = 0;
    DBUtil.closeDBResources(null, null, connection);
}
总结 

  这段代码的主要目的是从recordReceiver中读取记录读取数据,然后按照配置的批量大小和字节数,将数据写入目标数据库。

结语

  对于关系型数据库DataX基本都实现了,如果有定制化需求可以通过对上面的代码模块进行复制后改造来实现。同时DataX还支持非结构化存储(图片、文件、视频等)数据同步,可参考plugin-unstructured-storage-util模块。

### DataX 使用教程:Linux 环境配置操作指南 #### 1. 检查Linux系统版本 为了确保兼容性和后续步骤顺利,在开始之前应当确认所使用Linux发行版及其具体版本。这一步骤对于理解系统的特性非常重要[^1]。 #### 2. 验证Java Development Kit (JDK) 和 Python 安装情况 DataX依赖于这两个软件组件来正常工作。因此,需先验证是否存在适当版本的JDK和Python环境。可以通过命令行输入`java -version`和`python --version`来进行简单测试。 #### 3. 获取并准备DataX安装包 访问官方提供的链接下载最新稳定版的DataX压缩文件,并将其放置到服务器上的合适位置。完成下载之后,利用tar命令解开此归档文件,创建DataX的工作目录结构[^2]: ```bash wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz tar zxvf datax.tar.gz -C /opt/ ``` #### 4. 执行初步检测 解压完成后,建议立即运行内置的自我诊断程序以检验安装过程是否有误。该步骤有助于提前发现潜在问题,从而简化调试流程。 #### 5. 编写Job JSON 文件定义同步任务 每个具体的同步作业都需要通过编写相应的JSON格式的任务描述文件(job file)来实现。这些文件包含了关于源端、目的端以及其他参数的信息。一旦准备好这样的job文件就可以调用`datax.py`脚本来启动实际的数据传输进程[^4]: ```json { "job": { ... } } ``` #### 6. 启动数据同步作业 当一切就绪后,只需切换至DataX的`bin`子目录下并通过指定想要执行的那个job json文件作为参数传递给`datax.py`解释器即可触发整个同步动作: ```bash cd /opt/datax/bin/ python datax.py ../job/sample_job.json ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秉承初心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值