
数据集成工具
文章平均质量分 89
一纸春秋
张鼎元的博客。
展开
-
Sqoop笔记 —— MySQL与Hive、HBase、Hdfs的数据导入和导出
sqoop是一个开源工具,主要用处是在Hadoop(hive,hdfs,hbase)与传统的数据库(mysql,Oracle)之间进行数据的传递MySQL到hdfs的默认加载首先在mysql里面建表并加载数据然后创建一个文件夹,在里面创建编写conf文件import--connectjdbc:mysql://master:3306/student?useSSL=false--usernameroot--password123456--tablestudent--target-d原创 2021-12-06 21:53:00 · 1478 阅读 · 0 评论 -
Kettle笔记 —— 利用Transformation和job完成不同数据源的数据处理和写入
Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kattle的工程存储方式有(1)以XML形式存储,(2)以资源库方式存储(不同的用户可以共同使用)Kattle的两种设计:Transformation(转换):针对于数据的基础转换(着重于数据的ETL过程)Job(作业):完成整个工作流的控制(着重于不同步骤之间的控制流程)区别:一个Job中可以包含多个TransformationTransformatio原创 2021-12-10 21:45:12 · 3022 阅读 · 0 评论 -
Flume笔记 —— 几种常见的source,channel,sink配置文件以及相关用法
目录概念与官方文档监听文件目录数据变更,输出到控制台拦截器source监听文件目录,sink输出到hdfs将hbase日志信息写入hdfssource监听netcat端口,sink写入控制台概念与官方文档flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume系统中核心的角色是agent,agent本身是一个Java进程,一般运行在日志收集节点。一个agent内部有三个组件:Source:采集源,用于跟数据源对接,以获取数据;Channel:agent内部的数据传输通原创 2021-12-09 20:34:15 · 8128 阅读 · 1 评论 -
数据集成工具 —— datax与flinkx的使用
dataxdatax只要上传到linux本地,解压即可使用,如果不想每次执行的时候都要输入路径,可以配置到环境变量里面DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步原创 2021-12-07 20:07:59 · 5159 阅读 · 1 评论