数据导入 Hadoop 的多种技术实现
1. HBase 数据导入 HDFS
1.1 问题与解决方案
当你希望将 HBase 中的客户数据用于 MapReduce 并与 HDFS 中的数据结合时,有两种选择。一是编写 MapReduce 作业,在 map 或 reduce 代码中直接从 HBase 拉取数据;二是将 HBase 数据直接转储到 HDFS,尤其适用于计划在多个 MapReduce 作业中使用该数据,且 HBase 数据不变或很少更改的情况。
HBase 提供了 Export 类,可将 HBase 数据以 SequenceFile 格式导入 HDFS,同时还提供了读取导入数据的代码示例。
1.2 操作步骤
1.2.1 准备 HBase 数据
在开始导出数据之前,需要先将数据加载到 HBase 中。以下是加载示例股票数据的命令:
$ hip hip.ch5.hbase.HBaseWriter \
--input test-data/stocks.txt
可以使用 HBase shell 查看加载结果:
$ hbase shell
hbase(main):012:0> list
TABLE
stocks_example
1 row(s) in 0.0100 seconds
hbase(main):007:0> scan 'stocks_ex
超级会员免费看
订阅专栏 解锁全文
612

被折叠的 条评论
为什么被折叠?



