Sqoop1: commands -- import

最新推荐文章于 2025-12-29 09:40:14 发布

原创最新推荐文章于 2025-12-29 09:40:14 发布 · 145 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

本文介绍如何使用 Sqoop 工具从 MySQL 导入数据到 HDFS，包括连接配置、指定表及列、条件筛选等操作，并展示了通过 SQL 查询进行复杂数据加载的方法。

Import

import --connect jdbc:mysql://192.168.122.1:3306/sample 
    --username zhj --password 123456 
    --table actor
    --columns "id, name, birthday"
    --where "id>40"
    --m 3
    --target-dir /user/zhj/sqoop/actor        // or --warehouse-dir  /user/zhj/sqoop

import --query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' 
       --split-by a.id --target-dir /user/foo/joinresults

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ylzhjlinux

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Sqoop学习笔记 --- python保存 Sqoop 打印的信息

杨鑫newlife的专栏

03-16

1361

Sqoop学习笔记 --- python保存 Sqoop 打印的信息

大数据技术之Sqoop

悦分享

10-27

830

Sqoop 简介Sqoop是一款开源的数据迁移工具，主要用于在 Hadoop（Hive）与传统数据库（Mysql、Oracle...）间进行数据的相互传递，可以将一个关系型数据库（MySQL、Oracle、Postgres 等）中的数据导入到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导出到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

参与评论您还未登录，请先登录后发表或查看评论

【Sqoop1】Sqoop1实战之导入Sqoop import

个人公众号：Alen的数据库学习笔记

06-26

584

本篇主要演示Sqoop1的导入以及增量导入，涉及到的命令是Sqoop import。一准备工作1 下载并安装Mysql示例数据库参考：MySQL之示例数据库Sakila下载及安装2 Sqoop1版本[hadoop@strong ~]$ sqoop version 18/06/26 15:02:28 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7 Sq...

python调取hive 和sqoop之二

luoyexuge的专栏

11-26

2283

#!/usr/bin/python import time,os USER="wilson.zhou" PWD="YCt452uz" URL="jdbc:postgresql://10.1.1.230:5432/xmo_dw" day = time.strftime('%Y-%m-%d',time.localtime(time.time() -24*60*60))[2::] sql = ''

用python调用hive和sqoop

luoyexuge的专栏

11-26

5126

来新公司了，要做一大坨的脚本调数据，看看用python怎么调这些东西， #!/usr/bin/python import time,os USER="wilson.zhou" PWD="YCt452uz" URL="jdbc:postgresql://10.1.1.230:5432/xmo_dw" day = time.strftime('%Y-%m-%d',time.localtime(t

cdh sqoop 配置_Sqoop-1.4.6安装部署及详细使用介绍

weixin_39624429的博客

12-21

353

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用，综合比较后选择Sqoop1。Sqoop1安装配置比较简单一、安装部署(1)、下载安装包解压到/home/duanxz/sqooptar -zxvfsqoop-1.4.6-cdh5.5.2.tar.gz(2)、拷贝mysql的jdbc驱动包mysql-connector-java-5.1.31-bin.jar到sqoop/lib目...

Sqoop安装配置 Flume安装配置数据交换引擎： RDBMS ---- Sqoop---- HDFS（HBase、Hive）

爱喝酒的波斯猫

04-12

437

1、PigLatin语言分析数据 2、Pig自定义函数准备实验的环境：准备Oracle数据库 1、实验：前面的实验：Oracle闪回（回收站） 2、自带用户：sh/sh ---> 表：sales订单表（大概92万条数据） 3、实验环境（*）Oracle版本：10g企业版（*）操作系统：Windows XP 4、安装虚拟机：选XP、关闭防火墙数据采集的引擎：Sq...

CentOS 7 安装Sqoop-1.4.7-bin-hadoop

shufangreal的博客

01-22

1247

CentOS 7 安装sqoop1.4.7-bin-hadoop 前言 Sqoop是一个可以将数据在关系型数据库与Hadoop进行转移的工具，底层通过MapResult的MR任务将数据按批次的形式进行转移，同时自定义了对应的InputFormat和OutputFormat，吞吐量很大，功能很强。下载地址：https://mirrors.bfsu.edu.cn/apache/sqoop/1.4.7/ 1 下载安装包 # 1 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.t

Sqoop-1.4.7安装以及使用

落幕7的博客

10-19

1906

SQOOP安装及使用文章目录SQOOP安装及使用SQOOP安装1、上传并解压2、修改文件夹名字3、修改配置文件4、修改环境变量5、添加MySQL连接驱动6、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库importMySQLToHDFS编写脚本，保存为MySQLToHDFS.conf执行脚本注意事项：MySQLToHive编写脚本，并保存为MySQLToHIVE.conf文件在Hive中创建t

Sqoop 导入&导出

wzj_wp的博客

12-26

392

Sqoop 作用：数据从RDBMS和Hadoop之间进行导入导出操作底层就是使用MapReduce来实现的 Map 只有Map Reduce 没有Reduce 导入: import RDBMS ==> Hadoop 导出: export Hadoop ==> RDBMS 参数帮助查看—》sqoop help [wzj@hadoop001 conf]$ sqoop help 19...

Sqoop 使用详解

路边摊阿达西的博客

11-20

900

Sqoop 使用详解 Sqoop 是 Cloudera 公司创造的一个数据同步工具，现在已经完全开源了。目前已经是 hadoop 生态环境中数据迁移的首选，另外还有 ali 开发的 DataX 属于同类型工具，由于社区的广泛使用和文档的健全，调研之后决定使用 Sqoop 来做我们之后数据同步的工具。我们首先来看下 Sqoop 的工作流他将我们传统的关系型数据库 ...

运行sqoop1.4.5报Warning: does not exist! HCatalog jobs will fail.

weixin_41561946的博客

03-11

2095

软件版本 sqoop.1.4.5 hadoop.2.10.1 报错信息 [root@hadoop0 ~]# sqoop help Warning: does not exist! HCatalog jobs will fail. Please set $HCAT_HOME to the root of your HCatalog installation. Warning: does not exist! Accumulo imports will fail. Please set $ACCUMULO_

点赞系统问题

amdkk的博客

12-26

892

：Spring Pulsar 提供的接口，允许通过customize方法深度定制消费者行为。批量接收策略配置。：控制批量消息接收策略maxNumMessages：单次批量拉取多少条信息timeout：超时后触发批量处理。NACK重试策略当消费者调用时触发重试。：消息重投递的退避策略接口。.minDelayMs(1000) // 初始延迟 1 秒 .maxDelayMs(60000) // 最大延迟 60 秒 .multiplier(2) // 指数退避倍数。

第二篇：Linux服务器性能优化实战技巧（提升稳定性与效率）

ybmzlqzj的博客

12-27

511

调整TCP连接超时时间：net.ipv4.tcp_keepalive_time = 600（TCP保持连接的空闲时间，默认7200秒，缩短为10分钟，快速释放无效连接）、net.ipv4.tcp_keepalive_intvl = 30（保持连接探测间隔时间）、net.ipv4.tcp_keepalive_probes = 10（探测失败后重试次数）。使用nice命令调整进程优先级：nice -n -5 ./app（启动app进程，设置优先级为-5，nice值范围-20~19，值越小优先级越高）。

多元异构数据库高效运维法则：事前管控+事中处置+事后自愈闭环

weixin_54551388的博客

12-25

835

如果你的团队也在为数据库管理难、运维效率低而困扰，不妨试试zCloud数据库云管平台，让专业的工具为运维减负，让数据库真正成为业务增长的助推器。当数据库套数多、类型杂、架构异并存时，人工配置的疏漏、SQL 语句的隐患、巡检盲区的遗漏，都可能成为影响系统稳定的 “潜在风险”。公司以“数据驱动，成就未来”为使命，致力于将创新的数据技术产品和解决方案带给全球的企业和组织，帮助客户构建安全、高效、敏捷且经济的数据环境，持续增强客户在数据洞察和决策上的竞争优势，实现数据驱动的业务创新和升级发展。

MySQL管理篇：系统数据库与常用工具全解析

最新发布

qq_45438032的博客

12-29

537

各工具核心用途速查表工具主要用途关键参数/示例使用频率mysql连接数据库，执行SQLmysql -u用户 -p-e “SQL命令”⭐⭐⭐⭐⭐mysqladmin管理服务器状态⭐⭐⭐⭐解析二进制日志⭐⭐⭐mysqlshow快速查看结构mysqlshow db表⭐⭐mysqldump逻辑备份数据⭐⭐⭐⭐⭐导入文本数据⭐⭐⭐记住这些工具，你就掌握了MySQL日常管理的核心技能。实际工作中，最常用的是mysqlmysqldump和mysqladmin。

【网络运维】MySQL高可用架构实践：MHA部署

G_H_S_3_的博客

12-26

743

本文讲解了MySQL高可用架构中的MHA部署实践。

electron运行项目better-sqlite3连接失败的问题，ABI版本不匹配，使用使用 electron-rebuild 重新编译

qq_51389137的博客

12-28

669

为解决better-sqlite3连接失败，错误如下，是编译版本的事情，使用electron-rebuild。//npx electron-rebuild报错信息如下。

root@educoder:~# mysql -uroot -p123123 -h127.0.0.1 mysql: [Warning] Using a password on the command line interface can be insecure. Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 37 Server version: 5.5.59-0ubuntu0.14.04.1 (Ubuntu) Copyright (c) 2000, 2020, Oracle and/or its affiliates. All rights reserved. Oracle is a registered trademark of Oracle Corporation and/or its affiliates. Other names may be trademarks of their respective owners. Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. mysql> CREATE DATABASE hdfsdb DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; Query OK, 1 row affected (0.00 sec) mysql> USE hdfsdb; Database changed mysql> CREATE TABLE student ( -> stu_no INT PRIMARY KEY, -> stu_name VARCHAR(20), -> stu_age INT -> ); Query OK, 0 rows affected (0.00 sec) mysql> INSERT INTO student (stu_no, stu_name, stu_age) VALUES -> (202001, 'zhangsan', 18), -> (202002, 'lisi', 19), -> (202003, 'wangwu', 20); Query OK, 3 rows affected (0.00 sec) Records: 3 Duplicates: 0 Warnings: 0 mysql> SELECT * FROM student; +--------+----------+---------+ | stu_no | stu_name | stu_age | +--------+----------+---------+ | 202001 | zhangsan | 18 | | 202002 | lisi | 19 | | 202003 | wangwu | 20 | +--------+----------+---------+ 3 rows in set (0.00 sec) mysql> exit Bye root@educoder:~# sqoop import --connect jdbc:mysql://127.0.0.1:3306/hdfsdb --username root --password 123123 --table student; 25/03/28 11:17:03 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7 25/03/28 11:17:04 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead. 25/03/28 11:17:04 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset. 25/03/28 11:17:04 INFO tool.CodeGenTool: Beginning code generation 25/03/28 11:17:04 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM `student` AS t LIMIT 1 2

03-29

<think>嗯，用户想知道如何用Sqoop将MySQL数据导入HDFS，还要解析日志。首先，我需要回忆一下Sqoop的基本用法。记得Sqoop是用于在Hadoop和关系数据库之间传输数据的工具。用户可能已经安装了Sqoop，但可能需要确认环境变量和依赖库是否正确配置，比如MySQL的JDBC驱动是否放到了Sqoop的lib目录下。接下来，基本命令的结构。Sqoop import命令需要指定连接字符串、用户名、密码、表名或查询语句，还有目标目录。用户提到的示例可能需要包含这些参数。比如，连接MySQL的jdbc URL，数据库名，表名，以及HDFS的目标路径。同时，可能需要指定并行任务的数量，比如--m参数。然后，日志解析部分。用户执行Sqoop命令后，控制台会输出很多信息，需要指出关键部分。比如，开始时的配置信息，确认连接是否成功；然后是数据切分的部分，比如split-by的字段，生成多少个map任务；接着是map任务的进度，是否有错误；最后是输出目录和导入行数的统计。这些信息对于用户排查问题很重要，比如连接失败、权限问题或者数据切分不合理导致的性能问题。可能还需要考虑用户的实际场景。比如，如果用户的数据量很大，可能需要调整m参数来优化并行度。或者用户可能使用了查询语句而不是整表导入，这时候要注意where条件中的$CONDITIONS和split-by字段的必要性。此外，如果用户需要将数据导入Hive，可能需要添加--hive-import参数，但用户的问题主要是导入到HDFS，所以示例中不需要这部分。另外，用户可能遇到的常见错误有哪些？比如JDBC驱动找不到，这时候日志中会有ClassNotFoundException。或者数据库连接失败，可能是网络问题或权限错误。还有可能split-by的字段选择不当，导致数据倾斜，影响导入性能。这些都需要在日志解析部分提到，帮助用户理解如何排查问题。最后，生成相关问题时，要考虑用户可能进一步想知道的内容。比如性能优化，如何调整并行任务数；或者导入到Hive的具体步骤；以及导出数据回MySQL的方法。这些都是用户在使用Sqoop时常见的后续问题，应该包含在相关问题里，引导用户深入学习。总结一下，回答的结构应该是先给出一个完整的示例命令，分步骤解释每个参数的作用，然后详细解析执行后的日志信息，指出关键部分和常见错误。最后提供相关问题，帮助用户扩展知识。</think>### Sqoop导入MySQL数据到HDFS操作指南 #### 一、基础操作示例以下是使用Sqoop将MySQL表数据导入HDFS的标准命令格式： ```bash sqoop import \ --connect jdbc:mysql://<host>:<port>/<database> \ --username <username> \ --password <password> \ --table <table_name> \ --target-dir </hdfs/output/path> \ --m <num_mappers> ``` **参数解析**： - `--connect`：MySQL数据库连接地址（示例：`jdbc:mysql://192.168.1.100:3306/testdb`） - `--table`：需要导出的源表名称 - `--target-dir`：HDFS存储路径（需保证路径不存在） - `--m`：并行任务数（默认1，建议根据数据量调整） #### 二、完整执行示例 ```bash sqoop import \ --connect jdbc:mysql://secondmgt:3306/spice \ --username hive \ --password hive \ --table users \ --target-dir /output/users_data \ --m 4 ``` #### 三、日志关键信息解析执行后输出日志包含以下核心内容： 1. **环境配置验证** ``` INFO sqoop.Sqoop: Running Sqoop version: 1.4.7 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset ``` 验证JDBC驱动加载和MySQL连接配置[^3] 2. **数据切分逻辑** ``` INFO mapreduce.ImportJobBase: Transferred 256.45 MB in 32.456 seconds (7.897 MB/sec) INFO mapreduce.ImportJobBase: Retrieved 1000000 records ``` 显示数据总量与传输速率，用于性能评估 3. **并行任务状态** ``` INFO mapreduce.Job: map 0% reduce 0% INFO mapreduce.Job: map 25% reduce 0% INFO mapreduce.Job: map 100% reduce 0% ``` 展示MapReduce任务进度，帮助定位任务卡顿位置 4. **输出结果确认** ``` INFO mapreduce.ImportJobBase: Transferred 1.2 GB in 2min 35sec INFO util.NativeCodeLoader: Loaded the native-hadoop library ``` 最终输出包含数据量、耗时和HDFS存储路径验证[^1] #### 四、常见错误解析 1. **连接拒绝** ``` ERROR manager.SqlManager: Error executing statement: Communications link failure ``` 检查MySQL服务状态、防火墙设置、用户远程访问权限 2. **路径冲突** ``` ERROR tool.ImportTool: Import failed: Directory already exists ``` 添加`--delete-target-dir`参数覆盖目标目录 3. **数据类型不兼容** ``` ERROR orm.CompilationManager: Could not compile code for class Users ``` 使用`--map-column-java`参数指定字段类型映射