
ETL
文章平均质量分 81
大数据平台常用的ETL工具和中间件介绍
只是甲
10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验,持有Oracle OCP和Linux RHCE认证证书。
展开
-
Flume系列3-Flume事务与传输流程
文章目录一. Flume 事务二. Flume 传输流程参考:一. Flume 事务流程图:Put 事务流程:doPut:将批数据先写入临时缓冲区 putListdoCommit:检查 channel 内存队列是否足够合并doRollback:channel 内存队列空间不足,回滚数据Take 事务流程:doTake:将数据取到临时缓冲区 takeList,并将数据发送到 HDFSdoCommit:如果数据全部发送成功,则清除临时缓冲区 takeListdoRollback:数据发送过原创 2021-12-25 09:34:30 · 525 阅读 · 0 评论 -
Flume系列6-Flume的Kafka输出
文章目录一.需求描述二. 实现步骤2.1 Kafka创建主题2.2 Flume配置文件2.3 启动Flume程序2.4 查看输出一.需求描述今天有个需求是需要将hive运行的日志传输到Kafka,然后Flink消费Kafka数据,处理后输出给后端的同事。二. 实现步骤2.1 Kafka创建主题创建一个三个副本三个分区的主题flume_to_kafka用来接收数据cd /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/kafka/b原创 2021-12-27 10:19:29 · 280 阅读 · 0 评论 -
Flume系列1-Flume 概述
文章目录一. Flume 定义二. Flume 基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event参考:一. Flume 定义 Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。二. Flume 基础架构Flume 组成架构如下图所示:2.1 AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部原创 2021-12-24 15:00:04 · 190 阅读 · 0 评论 -
Flume系列2-Flume 入门
文章目录一. Flume 安装部署二. Flume 入门案例2.1 监控端口数据官方案例2.1.1 安装netcat2.1.2 创建 Flume Agent 配置文件2.1.3 先开启 flume 监听端口2.1.4 开启netcat2.1.5 在 Flume 监听页面观察接收数据情况2.2 实时监控单个追加文件2.2.1 创建 flume配置文件2.2.2 运行Flume2.2.3 开启Hive 并操作 Hive 产生日志2.3 实时监控目录下多个新文件2.3.1 创建配置文件2.3.2 启动监控文件夹命原创 2021-12-24 15:08:17 · 2099 阅读 · 0 评论 -
Flume系列4-Flume拓扑结构
文章目录一. 简单串联二. 复制和多路复用三. 负载均衡和故障转移四. 聚合一. 简单串联 这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量, flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。二. 复制和多路复用 Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中,或者将不同数据分发到不原创 2021-12-25 09:39:11 · 289 阅读 · 0 评论 -
Flume系列5-Flume自定义Interceptor
文章目录一. 拦截器简介二. idea构建拦截器2.1 pom文件2.2 Java代码2.3 maven打包并上传三.flume conf编写四. 运行并查看结果参考:一. 拦截器简介拦截器主要用来实现日志的分类,修改或者删除不需要的日志信息,拦截器分为内置拦截器和自定义拦截器。下面我们主要介绍使用自定义拦截器来将信息分类传输。二. idea构建拦截器首先构建一个maven工程。2.1 pom文件pom依赖如下:<dependency> <groupId>原创 2021-12-27 10:18:01 · 1200 阅读 · 0 评论 -
大数据开发之Sqoop详细介绍
备注:测试环境CDH 6.3.1Sqoop 1.4.7文章目录一.Sqoop概述二.Sqoop 工具概述三.Sqoon工具详解3.1 codegen3.2 create-hive-table3.2.1 create-hive-table工具命令介绍3.2.2 create-hive-table 测试案例3.3 eval3.3.1 eval工具命令介绍3.3.2 eval命令测试3.4 export3.4.1 export命令概述3.4.2 export命令测试案例3.4.2.1 hive表导入my原创 2020-12-16 13:57:10 · 2022 阅读 · 0 评论 -
Canal系列2-Canal同步到Kafka
文章目录一. MySQL的准备1.1 binlog格式1.2 创建库表1.3 赋权限二. Canal安装及配置2.1 Canal下载及安装https://github.com/alibaba/canal/releases2.2 修改 canal.properties 的配置2.3 修改 instance.properties2.4 启动 Canal2.5 看到 CanalLauncher 你表示启动成功,同时会创建 canal_test 主题2.6 启动 Kafka 消费客户端测试,查看消费情况2.7 向原创 2022-03-25 10:17:28 · 3627 阅读 · 1 评论 -
Canal系列1-Canal介绍
文章目录一. 什么是 Canal二. MySQL的Binlog2.1 什么是 Binlog2.2 Binlog的分类三. Canal的工作原理3.1 MySQL 主从复制过程3.2 Canal 的工作原理四. 使用场景一. 什么是 Canal 阿里巴巴 B2B 公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所 以衍生出了同步杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试 基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。原创 2022-03-25 10:15:21 · 614 阅读 · 0 评论 -
DataX系列9-DataX同步案例
文章目录一. MySQL同步到Hive1.1 MySQL数据准备1.2 Hive端提前建表1.3 json配置文件准备1.4 测试记录一. MySQL同步到Hive1.1 MySQL数据准备MySQL测试数据准备1.2 Hive端提前建表CREATE TABLE `ods_fact_sale_orc_datax`( `id` bigint, `sale_date` string, `prod_name` string, `sale_nums` int)ROW FORMAT原创 2021-12-20 15:16:32 · 300 阅读 · 0 评论 -
DataX系列2- 安装DataX
一.系统要求LinuxJDK(1.8以上,推荐1.8)Python(推荐Python 2.6.x)Apache Maven 3.x(编译DataX时才需要) 此处使用二进制安装包的方式安装,所以无需使用Maven,相关软件配置信息如下:[root@10-31-1-119 ~]# java -versionopenjdk version "1.8.0_242"OpenJDK Runtime Environment (build 1.8.0_242-b08)OpenJDK 64-Bit原创 2021-12-14 15:04:31 · 454 阅读 · 0 评论 -
DataX系列4-TxtFileWriter介绍
文章目录一. 快速介绍二. 功能与限制三. 功能说明3.1 配置样例3.2 参数说明3.2.1 path3.2.2 fileName3.2.3 writeMode3.2.4 fieldDelimiter3.2.5 compress3.2.6 encoding3.2.7 nullFormat3.2.8 dateFormat3.2.9 fileFormat3.2.10 header3.3 类型转换四. 测试案例4.1 数据准备4.2 json文件准备4.3 运行脚本参考:一. 快速介绍 实际生产中,鉴于数原创 2021-12-15 09:46:27 · 4693 阅读 · 0 评论 -
DataX系列3-TxtFileReader介绍
文章目录一.快速介绍二. 功能与限制三. 功能说明3.1 配置样例3.2 参数说明3.2.1 path3.2.2 column3.2.3 fieldDelimiter3.2.4 compress3.2.5 encoding3.2.6 skipHeader3.2.7 nullFormat3.2.8 csvReaderConfig3.3 类型转换参考:一.快速介绍 实际生产中,鉴于数据安全、不同够公司数据交互等原因,很多时候会使用txt、csv等文件格式来交互数据。 TxtFileReader提供了原创 2021-12-15 09:42:27 · 2313 阅读 · 0 评论 -
DataX系列5- MysqlReader介绍
文章目录一. 快速介绍二. 实现原理三. 功能说明3.1 配置样例3.2 参数说明3.2.1 jdbcUrl3.2.2 username3.2.3 password3.2.4 table3.2.5 column3.2.6 splitPk3.2.7 where3.2.8 querySql3.3 类型转换参考:一. 快速介绍 MysqlReader插件实现了从Mysql读取数据。在底层实现上,MysqlReader通过JDBC连接远程Mysql数据库,并执行相应的sql语句将数据从mysql库中SELEC原创 2021-12-16 15:56:01 · 1897 阅读 · 0 评论 -
DataX系列6- MysqlWriter介绍
文章目录一. 快速介绍二. 实现原理或者三. 功能说明3.1 配置样例3.2 参数说明3.2.1 jdbcUrl3.2.2 username3.2.3 password3.2.4 table3.2.5 column3.2.6 session3.2.7 preSql3.2.8 postSql3.2.9 writeMode3.2.10 batchSize3.3 类型转换四. 测试案例4.1 数据准备4.2 json文件准备4.3 运行脚本参考:一. 快速介绍 MysqlWriter 插件实现了写入数据到原创 2021-12-16 15:58:57 · 2022 阅读 · 0 评论 -
DataX系列10-DataX优化
文章目录一. DataX优化概述1.1 网络带宽等硬件因素困扰1.2 DataX本身的参数调优1.2.1 全局1.2.2 局部1.2.3 Jvm 调优二.DataX优化案例2.1 mysql表切分参考:一. DataX优化概述当觉得DataX传输速度慢时,需要从上述四个方面着手开始排查。网络本身的带宽等硬件因素造成的影响;DataX本身的参数;从源端到任务机;从任务机到目的端;1.1 网络带宽等硬件因素困扰 此部分主要需要了解网络本身的情况,即从源端到目的端的带宽是多少(实际带宽计算公原创 2021-12-20 15:19:12 · 3975 阅读 · 1 评论 -
DataX系列1-DataX介绍
文章目录一. DataX 概述1.1 设计理念1.2 当前使用现状二. DataX3.0框架设计三. DataX3.0插件体系四. DataX3.0核心架构4.1 核心模块介绍4.2 DataX调度流程五. DataX 3.0六大核心优势5.1 可靠的数据质量监控5.2 丰富的数据转换功能5.3 精准的速度控制5.4 强劲的同步性能5.5 健壮的容错机制5.6 极简的使用体验5.6.1 易用5.6.2 详细参考:一. DataX 概述 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据原创 2021-12-14 15:02:00 · 563 阅读 · 0 评论 -
DataX系列7-HdfsReader介绍
文章目录一. 快速介绍二. 功能与限制三. 功能说明3.1 配置样例3.2 参数说明(各个配置项值前后不允许有空格)3.2.1 path3.2.2 defaultFS3.2.3 fileType3.2.4 column3.2.5 fieldDelimiter3.2.6 encoding3.2.7 nullFormat3.2.8 haveKerberos3.2.9 kerberosKeytabFilePath3.2.10 kerberosPrincipal3.2.11 compress3.2.12 hado原创 2021-12-17 16:33:25 · 1275 阅读 · 0 评论 -
DataX系列8-HdfsWriter介绍
文章目录一. 快速介绍二. 功能与限制三. 功能说明3.1 配置样例3.2 参数说明3.2.1 defaultFS3.2.2 fileType3.2.3 path3.2.4 fileName3.2.5 column3.2.6 writeMode3.2.7 fieldDelimiter3.2.8 compress3.2.9 hadoopConfig3.2.10 encoding3.2.11 haveKerberos3.2.12 kerberosKeytabFilePath3.2.13 kerberosPrin原创 2021-12-17 16:37:34 · 6462 阅读 · 0 评论