文章目录
1. ETL简介
ETL
(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于开发或者运维人员来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少,这里我们要学习的ETL工具就是Kettle!
2. Sqoop
2.1 Sqoop简介
Sqoop
(SQL to Hadoop)是一个用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
它允许用户将结构化数据
从关系型数据库
(如MySQL、Oracle、SQL Server等)导入到HDFS或Hive表
中,或者将数据从HDFS导出到关系型数据库中。
2.2 Sqoop主要特点
- 可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中,也可将hadoop组件中的数据导入到关系型数据库中。
- sqoop在导入导出数据时,充分采用了map-reduce计算框架,根据输入条件生成一个map-reduce作业,在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作,速度比单节点