优化你的Sqoop import程序

概述

       本文对Sqoop原理进行分析,结合实战经验,给出一些优化策略。对如下问题给出建议。

  1. 怎样让sqoop快起来?
  2. 该用那个字段做分片?
  3. m 应该设置成多少?
  4. 可以用时间字段做分片么?
  5. 为什么写入Hbase把RS写挂了?

     本文只讨论sqoop 1 的import。

用途

       Sqoop通常被用来做关系型数据库与Hadoop生态的数据交换。从语法上看的出来它是站在hadoop的角度,sqoop import … 就是把数据取进来,sqoop export… 是把数据吐出去。

重要原理

       Sqoop是基于Mapreduce的,为的是在大数据量下多进程批量并行读写。因此我们在使用时要注意充分发挥集群性能。在大数据量情况下,Sqoop可以通过增加并发数-m加快速度,它将一个命令转换成m个sql同时读写目标数据库,如此一条命令会因为最慢的一个sql影响整体时长。增加并发数与均匀的分布是最基本的原则,而这与数据有非常直接的联系,因此要对数据有充分的了解

m与split-by

       当表数据量较小时没有必

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值