ETL学习(一)——初见基本名词

本文介绍Hadoop生态系统中的关键组件,包括Hive作为数据仓库的应用,HiveQL作为查询语言的作用,ETL过程的详细步骤,数据仓库与数据集市的概念区别,以及Sqoop在数据迁移中的角色。同时,对比了RDBMS与Hadoop分布式文件系统的特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Hive

是基于Hadoop的开源数据仓库

二、HiveQL

Hive对外提供的查询语言叫HiveQL,做查询时将HQL语句转换成MapReduce任务。

三、ETL

ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:

1.Extract,数据抽取,也就是把数据从数据源读出来。

2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。

3.Load  数据加载,把处理后的数据加载到目标处,比如数据仓库。

四、数据仓库

所涉及的数据操作主要是数据查询

元数据

为访问数据仓库提供了一个信息目录

五、数据集市

数据集市(Data Mart)是数据仓库的一个访问层,用于从数据仓库抽取相关的数据给用户,数据集市是数据仓库的一个子集

六、sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

七、在kettle中用sqoop

sqoop只有两个作用:导入、导出,

八、RDBMS关系型数据库

 

九、Hadoop分布式文件系统(相当于navicat)

http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值