使用mapreduce读取hfile

最新推荐文章于 2022-08-01 21:57:57 发布

原创

最新推荐文章于 2022-08-01 21:57:57 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍如何利用HBase的HFileScanner在MapReduce任务中读取HFile数据，通过示例代码展示了HFileScanner在实现自定义InputFormat时的应用。

这里主要说是hbase提供的一个HFileScanner的使用。

以下代码使用HFileScanner写一个inputformat

package hadoop.hbase;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.io.hfile.CacheConfig;
import org.apache.hadoop.hbase.io.hfile.HFile;
import org.apache.hadoop.hbase.io.hfile.HFileScanner;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.util.StringUtils;

/**
 * This is direct port (hopefully) of t