author: lf
sqoop export 使用说明
--export-dir 和 (--table和--call中的一个)是必须的。
指定了将要填充的表(或将要调用的存储过程),以及hdfs包含资源数据的目录
--columns
默认将查询出表中所有的字段。通过这个参数可以选择列的子集并控制它们的顺序,使用逗号分割,例如:–columns “col1,col2,col3”。
注意,columns参数中不能包含需要默认值的列以及允许空值的列
--num-mapper或--m
默认Sqoop使用四个任务并行处理。这可能不是最优的,可以根据实验的实际情况,进行设置。
该设置控制map的任务数(使用的并行程度)。
--direct
一些数据提供了直接模式,这种模式可能比标准的JDBC模式性能更好
--input-null-string 和--input-null-non-string 是可选的
如果--input-null-string没有指定,那么对于字符类型的列,字符串“null”将被解释为null;
如果--input-null-non-string没有指定,那么对于非字符类型的列,字符串"null"和空字符串将被解释为null;
注意:对于非字符类型的列,空字符传总是被解释为null。
--staging-table
Sqoop将一个导出过程切分成多个事务,一个失败的导出作业,可能会导致部分的数据提交到数据库中,这可能会由于插入冲突导致后续的任务失败,或者导致数据重复。
--

本文详细介绍了如何使用sqoop从Hive数据仓库将数据导出到Oracle数据库,包括导出的基本步骤、注意事项以及如何利用staging表进行数据分段。示例中展示了使用nohup命令执行导出作业,并强调了在有约束的表中插入或更新数据时需谨慎操作。
最低0.47元/天 解锁文章
2817

被折叠的 条评论
为什么被折叠?



