sqoop操作之ETL小案例

本文介绍了一个简单的ETL(Extract-Transform-Load)流程实例,演示如何从Oracle数据库中抽取数据,利用Hive进行数据处理,并最终将处理结果加载回Oracle数据库。此教程包括创建Hive表、使用Sqoop进行数据导入导出等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。
将数据从ORACLE中抽取数据,经过hive进行分析转换,最后存放到ORACLE中去。

本案例是纯demo级别,练手使用

一、需求
将emp和dept表的数据分析最后存放到result表。

emp和dept表均为oracle自带的表,表结构如下:

emp表

EMPNONUMBER(4)
ENAMEVARCHAR2(10)
JOBVARCHAR2(9)
MGRNUMBER(4)
HIREDATEDATE
SALNUMBER(7,2)
COMMNUMBER(7,2)
DEPTNONUMBER(2)


dept表

DEPTNONUMBER(2)
DNAMEVARCHAR2(14)
LOCVARCHAR2(13)

 result表

EMPNO员工号
ENAME员工姓名
COMMN津贴
DNAME部门号

 二、数据准备

创建hive表

create table emp_etl(
    empno int,
    ename string,
    job string,
    mgr int,
    hiredate string,
    sal double,
    comm double,
    deptno int
)
row format delimited fields terminated by '\t' lines terminated by '\n' 
stored as textfile;

create table dept_etl(
    deptno int,
    dname string,
    loc string
)
row format delimited fields terminated by '\t' lines terminated by '\n' 
stored as textfile;

create table tmp_result_etl(
    empno int,
    ename string,
    comm double,
    dname string
)
row format delimited fields terminated by '\t' lines terminated by '\n' 
stored as textfile;


create table result_etl(
    empno int,
    ename string,
    comm double,
    dname string
)
row format delimited fields terminated by '\t' lines terminated by '\n' 
stored as textfile;

导入hive数据

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table EMP \
--hive-overwrite --hive-import  --hive-table emp_etl  \
--null-string '' --null-non-string '0' \
--fields-terminated-by '\t' --lines-terminated-by '\n' -m 3;


sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table DEPT \
--hive-overwrite --hive-import  --hive-table dept_etl \
--null-string '' --null-non-string '0' \
--fields-terminated-by '\t' --lines-terminated-by '\n' -m 3;

 三、实现方式

在hive中分析处理,将结果导出到HDFS中,再使用SQOOP将HDFS结果导入到数据库。
1)抽取:ORACLE数据抽取到HIVE。参见前面两步。
2)转换:将查询结果插入到hive表中

INSERT OVERWRITE TABLE result_etl 
select a.empno, a.ename, a.comm, b.dname FROM emp_etl a join dept_etl b on (a.deptno = b.deptno);

3)转换:将数据导入到HDFS文件系统中

INSERT OVERWRITE DIRECTORY 'RESULT_ETL_HIVE' SELECT * from result_etl;

4)加载:将HDFS系统中的数据加载到ORACLE中(结果表需要手工创建)

创建ORACLE表用于存放ETL结果

CREATE TABLE RESULT_ETL2(
empno INT,
ename VARCHAR(10),
COMM DOUBLE,
dname VARCHAR(14)
);
sqoop export --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table RESULT_ETL2 \
--export-dir /user/hadoop/RESULT_ETL_HIVE \
--fields-terminated-by '\001' \
-m 2;

或者将所有的脚本(除ORACLE创建表外)放到shell文件中,一并执行

#!/bin/sh                                                                                               
. /etc/profile                                          
set -x                                             
                                                  
hql="INSERT OVERWRITE TABLE result_etl            
select a.empno, a.ename, a.comm, b.dname FROM emp_etl a join dept_etl b on (a.deptno = b.deptno) "                                                      
hive -e "$hql"                                         
                                                       
sqoop export --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table RESULT_ETL2  \
--export-dir /user/hadoop/RESULT_ETL_HIVE \
--fields-terminated-by '\001'  \
-m 2;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值