
ETL
文章平均质量分 85
ETL
cpuCode
站在巨人的肩上行走 https://github.com/CPU-Code
展开
-
Maxwell 之旅
Maxwell 之旅Maxwell 概述输出数据格式插入更新删除Maxwell 原理MySQL 二进制日志MySQL 主从复制主从复制的应用场景:主从复制的工作原理:Maxwell 原理部署使用启动Kafka集群Maxwell 启停增量数据同步历史数据全量同步Maxwell-bootstrapboostrap 数据格式Maxwell 概述Maxwell 是由美国 Zendesk 公司开源,用 Java 编写的 MySQL 变更数据抓取软件。会实时监控Mysql 数据库的数据变更操作(insert、upd原创 2022-03-06 23:05:09 · 377 阅读 · 0 评论 -
Canal 之旅
Canal 之旅Canal 入门什么是 CanalMySQL 的 Binlog什么是 BinlogBinlog 的分类Canal 的工作原理MySQL 主从复制过程Canal 的工作原理使用场景MySQL 的准备Canal 的下载和安装实时监控测试Canal 入门什么是 Canal阿里巴巴 B2B 公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了同步杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了原创 2022-01-04 22:16:49 · 131 阅读 · 0 评论 -
Sqoop 之旅
Sqoop 之旅Sqoop简介Sqoop原理Sqoop安装Sqoop 导入导出导入数据RDBMS 到 HDFSRDBMS 到 HiveRDBMS 到 Hbase导出数据HIVE/HDFS 到 RDBMS脚本打包Sqoop 命令公用参数数据库连接importexporthive命令&参数importexportcodegencreate-hive-tableevalimport-all-tablesjoblist-databaseslist-tablesmergemetastoreSqoop简介S原创 2022-03-18 16:31:04 · 154 阅读 · 0 评论 -
DataX 之旅
DataX 之旅DataX 概述支持的数据源DataX 架构原理DataX设计理念框架设计运行流程调度决策思路DataX与Sqoop对比Data 安装DataX 使用DataX任务提交命令DataX配置文件格式同步 MySQL 数据到 HDFSMySQLReader之TableModeMySQLReader之QuerySQLModeDataX传参DataX 优化速度控制内存调整DataX 概述DataX 是阿里巴巴开源的一个异构数据源离线同步工具,实现关系型数据库(MySQL、Oracle等)、HDFS原创 2022-03-03 22:50:37 · 1441 阅读 · 0 评论 -
Datax 往 hdfs 写数据配置 HA 高可用
Datax 往 hdfs 写数据配置 HA 高可用配置脚本权限 :配置全表生成脚本权限配置脚本vim gen_import_config_ha.py内容 :# coding=utf-8import jsonimport getoptimport osimport sysimport MySQLdb#MySQL相关配置,需根据实际情况作出修改mysql_host = "cpu102"mysql_port = "3306"mysql_user = "root"mysql_pass原创 2022-03-29 16:49:30 · 2334 阅读 · 1 评论