Sqoop1导入hdfs/hive数据

最新推荐文章于 2024-03-08 15:53:28 发布

star-hash

最新推荐文章于 2024-03-08 15:53:28 发布

阅读量1.1k

点赞数 1

分类专栏： CDH Sqoop 文章标签： hive sqoop hadoop

版权

本文详细介绍了如何使用Sqoop从MySQL数据库导入数据到HDFS、Hive和HBase，包括全量导入、覆盖数据、增量导入（append和lastmodified模式）及其区别。在增量导入过程中，探讨了可能遇到的问题和解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；

导出数据：从Hadoop的文件系统中导出数据到关系数据库

CDH先安装了Sqoop2，以为用法一样，只是结构不一样了，后来发现用法完全不一样，又把sqoop给装了回来，还复习了一波
hadoop1 是我的Mysql安装机器
exercise Mysql中测试的的数据库
test_table Mysql exercise数据库的测试表

选项	含义说明
–append	将数据追加到HDFS上一个已存在的数据集上
–as-avrodatafile	将数据导入到Avro数据文件
–as-sequencefile	将数据导入到SequenceFile
–as-textfile	将数据导入到普通文本文件（默认）
–boundary-query	边界查询，用于创建分片（InputSplit）
–columns <col,col,col…>	从表中导出指定的一组列的数据
—delete-target-dir	如果指定目录存在，则先删除掉
–direct	使用直接导入模式（优化导入速度）
–direct-split-size	分割输入stream的字节大小（在直接导入模式下）
–fetch-size	从数据库中批量读取记录数
–inline-lob-limit	设置内联的LOB对象的大小
-m,–num-mappers	使用n个map任务并行导入数据
-e,–query	导入的查询语句
–split-by	指定按照哪个列去分割数据，不同数据交给不同maptask执行