全文内容来自:Sqoop工具模块之sqoop-import
一、常用命令列举
序号 | 命令 | 类 | 说明 |
---|---|---|---|
1 | import | ImportTool | 将数据导入到集群 |
2 | export | ExportTool | 将集群数据导出 |
3 | codegen | CodeGenTool | 获取数据库中某张表数据生成Java并打包Jar |
4 | create-hive-table | CreateHiveTableTool | 创建 Hive 表 |
5 | eval | EvalSqlTool | 查看 SQL 执行结果 |
6 | import-all-tables | ImportAllTablesTool | 导入某个数据库下所有表到 HDFS 中 |
7 | list-databases | ListDatabasesTool | 列出所有数据库名 |
8 | list-tables | ListTablesTool | 列出某个数据库下所有表 |
9 | help | HelpTool | 打印 sqoop 帮助信息 |
10 | version | VersionTool | 打印 sqoop 版本信息 |
主要记录 import 命令。
二、import 参数
2.1、连接参数
--connect <jdbc-uri>:指定JDBC连接字符串。
--connection-manager <class-name>:指定要使用的连接管理器类。
--driver <class-name>:手动指定要使用的JDBC驱动程序类。
--hadoop-mapred-home <dir>:覆盖$ HADOOP_MAPRED_HOME
--help:打印使用说明。
--password-file:为包含认证密码的文件设置路径。
-P:从控制台读取密码。
--password <password>:设置验证密码。
--username <username>:设置验证用户名。
--verbose:在控制台打印更多信息。
--connection-param-file <filename>:提供连接参数的可选属性文件。
--relaxed-isolation:将连接事务隔离设置为对映射器未提交的读取。
2.2、 安全验证参数
--validate:启用对复制数据的验证,仅支持单个表复制。
--validator <class-name>:指定要使用的验证程序类。
--validation-threshold <class-name>:指定要使用的验证阈值类。
--validation-failurehandler <class-name>:指定要使用的验证失败处理程序类。
2.3、导入控制参数
以下是 Sqoop 在导入数据时,可选的控制导入数据内容的参数:
--append:将数据追加到HDFS中的现有数据集。
--as-avrodatafile:将数据导入Avro数据文件。
--as-sequencefile:将数据导入到SequenceFiles。
--as-textfile:以纯文本形式导入数据(Sqoop导入的默认方式)。
--as-parquetfile:将数据导入Parquet文件。
--boundary-query <statement>:边界查询用于创建分割。
--columns <col,col,col…>:从表中选择要导入列。
--delete-target-dir:删除导入目标目录(如果存在)。
--direct:如果数据库存在,则使用直接连接器。
--fetch-size <n>:一次从数据库读取的