Sqoop import进阶

本文介绍了如何使用Sqoop将数据从MySQL的视图导入到HBase,强调了使用JSON数组的原因,并提到了在MySQL中创建视图的方法。在导入后,通过Hbase的count和scan命令进行验证。此外,讨论了 Sqoop 中的特定开关 `-Dorg.apache.sqoop.splitter.allow.text_splitter=true` 对于处理长字符串的重要性。最后,提供了一个简单的计数练习,展示了Sqoop操作的简便性,建议不要过度关注 Sqoop,而应更多地关注Hive和HBase。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.学会打包成JSON数组传进去

2.从mysql的一个viewe导入,其实和table没有本质区别

 

 

CONCAT就是拼接一下

 

拼接成json数组   [{ "A":a , "B",b} , { }]

 

导入时可以从一个mysql的view导入

 

为什么采用JSON数组,因为一个Order对应一个Product,我们可以这么做。

但是他现在mysql里面就order_items,他有很多列,在Hbase里我们不好定义具体产生多少个列(只能定义列族),所以就用json对象传进来更方便。

这块我还没太明白,以后再说。

 

导入之后  在Hbase里  count 'products' 看看导入了那么多条记录没有。

scan 'products'  { LIMIT-->5 }  看看前5条 rowkey和column+cell

实际过程中就是干这些活儿的,多去验证不要觉得麻烦来熟悉这些框架,综合性练习

 

好多过滤器 什么substring

 

如何在mysql中创建view

 

其它内容

有一个开关 -Dorg.apache.sqoop.splitter.allow.text_splitter=true

文档中字符串会很长时,必须打开这个开关

 

练习2:

这个很简单,一样从mapper分解,然后取出第三个元素shape。

形状作为key传给reducer,然后再Reducer对每一个key,在value的循环里。

循环里我就直接 a++  因为根本就不循环,传过来的是空。

来一个key,我a就加1,就完成了计数。

这和词频统计一模一样,根本不难的。

 

不要在sqoop上花太多时间 他很简单,但是sqoop是非常棒的工具。主要侧重点还是hive和hbase

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值