sqoop数据抽取分区表的示例

最新推荐文章于 2025-11-21 21:46:29 发布

原创

最新推荐文章于 2025-11-21 21:46:29 发布 · 3.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#sqoop import

本文提供了一个使用sqoop从MySQL导入数据到Hive分区表的示例脚本。脚本中定义了表名、字段、Hive数据库、Hive表名、分区键，并使用当前日期作为分区值，通过并行处理提高导入效率。

--分区表

#!/bin/bash

#mysql表名

tableName=t_sys_file

#字段名

columns=id,biz_field_name,biz_id,biz_table_name,bucket_name,content_type,created_date,disp_order_no,download_times,file_key,file_size,filename

#hive-database

hive_datebase=ods

#hive-table

hive_table=s01_t_sys_file

#partition

hive_partition_key=etl_time

#etl_time=`date "+%Y-%m-%d %H:%M:%S"`

etl_time=`date "+%Y%m%d"`

#m个数

parallel_count=16

for i in {1..1}

#redo rmr hdfs

hadoop fs -rmr /user/hdfs/${hive_table}

hadoop fs -rmr /user/hdfs/${tableName}

cfg=`grep -v '^#' /home/gamaxwin/mo9_azkaban/database_set.cfg | grep -i "jianghujiuji_riskdb"`

uid=`echo $cfg|awk -F, '{print $2}'`

url=`echo $cfg|awk -F, '{print $3}'`

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sky_2021

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Sqoop导入MySQL数据到Hive外部表之动态分区表编程

git_web425的博客

09-20

373

通过"–hive-partition-key"参数，我们指定了分区键为"department"列。这样，Sqoop将会将MySQL中"department"列值为"IT"的数据导入到Hive动态分区表的"department=IT"分区中。假设我们有一个名为"employees"的MySQL表，包含"employee_id"、"name"和"department"三个列。例如，要导入"HR"部门的数据，可以将"–hive-partition-value"的值改为"HR"。希望本文对你有所帮助！

sqoop-import 并行抽数及数据倾斜解决

山雨欲来风满楼

01-14

6851

最近在数据中台的数据抽数优化工作，由于单表数据量太大（每天千万级别）导致sqoop抽数使用单实例报内存溢出以及抽数时间过长，决定采用sqoop的多实例并行抽数，参考了一些文档，但同时遇到了一些问题，趁有点时间把遇到问题的解决方法写下来供大家借鉴。并行化 sqoop-常用命令及参数：https://www.yuque.com/shanyu-aqvcy/hkqgb7/vngsox sqoop...

参与评论您还未登录，请先登录后发表或查看评论

sqoop导入数据到hive动态分区表

weixin_43025027的博客

08-07

1189

sqoop导入数据到hive动态分区表

hive静态分区和动态分区区别

M10F的博客

05-20

8212

静态分区 SP（static partition） 1、静态分区是在编译期间指定的指定分区名 2、支持load和insert两种插入方式 2.1load方式 1）会将分区字段的值全部修改为指定的内容 2）一般是确定该分区内容是一致的时候才会使用 2.2insert方式 1）必须先将数据放在一个没有设置分区的普通表中 2）该方式...

Sqoop简介以及使用

最新发布

小张的博客

11-21

1092

Sqoop是一个用于在Hadoop系统（HDFS/Hive/HBase）与关系型数据库（如MySQL、Oracle）之间高效传输批量数据的工具。它通过MapReduce作业实现数据导入导出，支持全表导入、查询导入、指定列导入等多种方式，并能将数据导入Hive或HBase。Sqoop架构简洁，利用JDBC访问数据库元数据，通过并行化MapTask实现高速传输。虽然不支持实时传输，但能有效解决Hadoop与传统数据库间的数据交互问题。典型应用场景包括将MySQL数据导入HDFS/Hive，或将Hive数据导出到

mysql分库分表数据导入hive之sqoop-shell脚本

叁木大数据

05-31

2714

sqoop分库分表shell导入脚本之前的生产集群使用到了mysql的分库分表，所以抽取同一张表的数据就需要从不同的库与表中进行抽取了！话不多说线上图分库：分表：一、sqoop导入脚本 #!/bin/bash #coding=UTF-8 sqoop=/data/cloudera/parcels/CDH-5.14.4-1.cdh5.14.4.p0.3/bin/sqoop $sqoop import \ -Dhadoop.security.credential.provider.path=jce

sqoop按分区抽取oracle,一次用sqoop抽取oracle数据到hive时遇到的问题

weixin_36183945的博客

04-05

333

Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: Io exception: Connection resetat org.apache.sqoop.mapreduce.db.DBInputFormat.setDbConf(DBInputFormat.ja...

sqoop 抽取mysql数据_sqoop抽取mysql数据到hive

weixin_34489135的博客

01-30

747

对于sqoop，我之前只是知道作用，并未对其进行研究。最近设计基础架构的过程中，其中一环需要用到sqoop，用来导数据，涉及全量和增量，于是花时间学习了一下。这里讨论sqoop导数据的全量和增量的功能，以及遇到的一些问题。下面的案例是：使用sqoop将mysql的数据导入hive中，数据来自天气数据。制造数据源通过NiFi采集天气数据，保存到mysql。具体的采集流程并非本文重点，这里就不做描述了...

通过sqoop抽取导入数据到hive分区表

05-18

### 使用 Sqoop 抽取数据并导入到 Hive 分区表的方法以下是通过 Sqoop 将 MySQL 数据抽取并导入到 Hive 分区表的详细说明。此过程涵盖了配置 Sqoop 命令、创建目标 Hive 表结构以及执行数据导入的关键步骤。 --- ...

【数据抽取性能提升】：Sqoop数据抽取优化，高级策略大公开

数据抽取与Sqoop简介 ## 1.1 数据抽取的重要性数据抽取是数据处理过程中的关键步骤，它涉及将数据从业务系统安全有效地转移到数据仓库或大数据存储系统中。良好的数据抽取策略能够确保数据的质量、完整性和可用性...

sqoop同步时间戳到mysql_sqoop增量导入并按时间分区

weixin_39534208的博客

01-30

316

# 变量设置，之后应该是传入参数mdb='kaipao'hdb='zhengyuan'table='water_friend_rel'check_col='create_time'ds='2019-04-22'# 1.判断hive中是否有分区表hive -e "show columns from ${hdb}.${table}_di" |grep -v 'WARN:' > tmp1.txta...

Sqoop-从hive导出分区表到MySQL

weixin_34014555的博客

11-16

909

经多次验证，发现并没有特殊的方法能够直接把多个分区一次性读入，并插入MySQL的方法，以后发现会在此添加。 Sqoop只提供了从MySQL导入到HIVE分区表的相关参数，反向并无特别参数。从HIVE分区表导入到MySQL，需要依次导入每个分区的数据 sqoop export \ --connect jdbc:mysql://server74:3306/Server74 \ --...

Sqoop

weixin_42581821的博客

07-25

253

文章目录Sqoop简介sqoop安装数据的导入与导出将mysql的表导入 hdfs将mysql的表导入 hive将mysql的表的增量数据导入 hdfs将hdfs的文件数据导出到mysql Sqoop 简介 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。本质上是mapreduce程序,负责hdfs和关系型数据库之间的数据传输（数据仓库中那些经过ETC的数据...

sqoop2-数据源

chuiyan0987的博客

09-13

450

介绍 sqoop2导入数据，是基于mapreduce框架的。sqoop2会将数据分片的信息，然后把分片的信息传递给mapreduce框架，每一个数据分片对应着一个map任务。提交job MapreduceSubmissionEngine类，实现了job的提交。 initialize方法，从指...

一种解决Hive分区表不能使用SQOOP export 数据的方法

liuwei0376的专栏

06-07

660

Hive分区表不能直接用于SQOOP export 数据导出至RDBMS，否则可能会报分区目录无法抽取的错误。一种可行的方案是根据查询分区表的结果集，创建出一个新的非分区表，然后从非分区表里再使用SQOOP export语法。......

Sqoop切分数据的思想概况

weixin_34236497的博客

11-23

326

Sqoop通过--split-by指定切分的字段，--m设置mapper的数量。通过这两个参数分解生成m个where子句，进行分段查询。因此sqoop的split可以理解为where子句的切分。第一步，获取切分字段的MIN()和MAX() 为了根据mapper的个数切分table,sqoop首先会执行一个sql，用于获取table中该字段的最小值和最大值，源码片段为org.apache.sq...

Sqoop的简单使用

Yubingx的博客

10-21

276

Sqoop的简单使用 RDBMS到HDFS 全部导入 $ bin/sqoop import \ --connect jdbc:mysql://192.168.34.21:3306/company \ --username root \ --password 123456 \ --table staff \ --target-dir /company \ --delete-target-dir \ --fields-terminated-by "\t" \ --num-mappers 1 \ --spli

Sqoop基本使用

下山化缘的DJ

12-08

1508

sqoop，它是一款开源的工具，主要用于实现关系型数据库与hadoop中hdfs之间的数据传递，其中用的最多的就是import，export了。 sqoop的安装配置也是非常简单的，这里就不说明了，本文主要针对如何使用sqoop实现oracle到hive(hdfs)的数据传递进行试验。对于比较全的参数使用，可以到sqoop的官方文档http://sqoop.apache.org/docs/ 查看，以下是这次会用到的一些参数讲解： -m N ：开启N个map来导入数据 –query ：从查询结果导入数据，

sqoop 导入数据到hive分区表（外表，内表）指定分区指定数据库指定表

weixin_41734687的博客

11-18

8779

sqoop 导入数据到hive 1.1.导入数据到hive分区表（内表），指定分区创建hive分区表 –hive-database 指定数据库 –table 指定表 –hive-overwrite 覆盖已有表中的数据从mysql导入数据到hive，导入的hive的默认数据库 bin/sqoop import --connect jdbc:mysql://180.150.188.119:3...

sqoop数据抽取 分区表的示例

sqoop数据抽取分区表的示例