ETL工具Sqoop使用实验
实验目的:
- 掌握ETL工具Sqoop的使用
- 掌握MySQL和HDFS之间的数据转换
实验要求:
- 掌握ETL工具Sqoop的使用
- 能够正常操作数据库、表、数据
实验环境:
- 一台独立PC或虚拟机
- 每台主机内存2G以上,磁盘剩余空间500M以上
- 已安装CentOS 7.4操作系统
- 已安装JDK
- 已完成Hadoop平台的搭建
- 已完成Mysql数据库平台的搭建
- 已完成Hbase的安装
- 已完成hive的安装
- 已完成Sqoop工具的安装
一:启动
1,在集群中所有主机上使用命令“zkServer.sh start”启动Zookeeper服务脚本,然后使用命令“zkServer.sh status”查看节点当前状态
2.在主节点使用命令“star-all.sh”启动Hadoop集群,在备用主节点使用命令“yarn-daemon.sh start resourcemanmger”启动YARN主节点服务
3.确定Hadoop集群启动之后,在主节点输入命令“start-hbase.sh”启动Hbase集群
4.进入hive的控制台并查看当前数据库列表
5.在主节点验证配置并启动Sqoop服务器
6.启动sqoop服务器,使用命令jps查看Java进程(若有名为“SqoopJettyServer”进程则表示sqoop启动成功)
进入Sqoop控制台
7.启动MySQL
二、Sqoop工具的使用
(一)MySQL->HDFS
- MySQL集群使用root用户进行
- Hadoop、Hbase、hive、Sqoop使用admin用户进行操作
1.初始化Sqoop服务器连接参数
2.建立MySQL测试表空间、表和数据
- 创建用户Sqoop并授权
- 创建表空间(schema)Sqoop,并创建测试表
- 插入测试数据
3.建立MySQL数据库连接
- 上传
- 添加工具包
- 创建数据库连接
- 建立HDFS文件系统连接
Create job -f mysql-sqoop -t HDFS-sqoop
5.在HDFS创建用于存放导出的数据文件的目录
6.创建数据传输事务
- ResourceManager状态查看