
Sqoop
数据源的港湾
这个作者很懒,什么都没留下…
展开
-
Sqoop1 与 Sqoop2
Sqoop即SQL to Hadoop,是一款方便的在RDBMS数据库(如Oracle,MySQL,Postgresql等)与Hadoop之间进行数据迁移的工具,它充分利用MapReduce并行特点以批处理的方式加快数据传输,目前主要包括两个版本:Sqoop1和Sqoop2。Sqoop是Hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和Hive、HDFS、HBase之间的数据导入原创 2017-02-08 14:47:40 · 3705 阅读 · 0 评论 -
Sqoop1 从Oracle往Hive迁移数据
本篇幅讲述如何利用CDH Hadoop版本上面的Sqoop1从Oracle往Hive迁移数据,例子比较简单,仅供参考。1 列出CDH目录下面的sqoop所有相关命令[root@n12 bin]# pwd/opt/cloudera/parcels/CDH/bin[root@n12 bin]# ll sqoop*-rwxr-xr-x 1 root root 918 Jul 23 2016 sq原创 2017-02-24 15:22:28 · 2621 阅读 · 0 评论 -
Sqoop 加载数据到ORC表
sqoop目前支持直接从RDBMS加载数据到Hive的ORC表,这可以通过两种方式实现。先创建Hive ORC表,然后用sqoop import命令将数据导入到Hive ORC表利用sqoop import同时创建Hive ORC表并加载数据这里简单测试一些用sqoop从Oracle表导入到Hive ORC表,具体方法如下 (1)//hive CLI创建orc测试表hive> create原创 2017-03-21 17:18:58 · 7891 阅读 · 1 评论 -
Sqoop抽数报IO Error: Connection reset
现象在使用Sqoop从Oracle抽数据到Hive表时,有时候会遇到以下报错,Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: Connection reset at org.apache.sqoop.mapredu...原创 2018-03-08 16:35:24 · 2784 阅读 · 0 评论 -
Sqoop从PostgreSQL导入Hive遇到的两个问题
昨天尝试使用Sqoop从PostgreSQL向Hive中迁移数据,过程中遇到两个问题,在此记录一下,以备以后遇到类似问题可以快速找到解决方案。问题1:当PostgreSQL表中有json类型时Sqoop命令报以下错误No Java type for SQL type 1111 forcolumn voting_info解决方案:sqoop命令中添加以下类型映射--...原创 2018-04-03 10:48:24 · 3325 阅读 · 2 评论 -
Sqoop错误retries get failed due to exceeded maximum allowed retries number
现象执行sqoop命令时报以下warning,但sqoop抽数功能不受影响。 解决根据错误提示,找到https://community.hortonworks.com/questions/70997/failed-to-connect-to-server-port-8032-retries-get.html?sort=oldest 这篇文章,Your standby RM (...原创 2018-06-22 13:45:23 · 3679 阅读 · 0 评论 -
使用sqoop迁移blob到Hive表
sqoop是一款开源的关系型数据库到Hadoop的迁移工具,对于通用的数据类型,如数值类型、字符类型、日期类型等sqoop可以提供无缝地迁移到Hadoop平台。但对于特殊类型,如LOB,使用sqoop迁移则有所限制。对于CLOB,如xml文本,sqoop可以迁移到Hive表,对应字段存储为字符类型。对于BLOB,如jpg图片,sqoop无法直接迁移到Hive表,只能先迁移到HDFS路径,然后再...原创 2019-02-20 17:47:34 · 4420 阅读 · 1 评论