Spark 将csv文件自动化导入 hbase表

最新推荐文章于 2025-09-08 10:40:03 发布

原创

最新推荐文章于 2025-09-08 10:40:03 发布 · 1.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#Spark

本文介绍了如何利用Spark将CSV文件im.csv有效导入到HBase数据库中，详细阐述了整个过程并展示了Idea运行结果及导入后的HBase表状态。

import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.mapreduce.Job;
import org.apache.spark.api.java.*;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * 此代码实现了根据csv文件提供的表头(列族：列)自动化建表(如果表不存在)以及向表中插入csv中的数据。
 * 注意1：有一个小 bug，就是表头它也会插入到 hbase表中，需要另行删除表头这一行
 * 注意2：spark是要先运行action算子才会运行transformation,也就是说 它会从先从 62行 跳到 112 行 再回来运行 62-112之间的代码
 */
public class SparkImToHBase {
    private static int flag;
    private static int exitTable;
    static   Admin admin;
    static