记一次·Spark读Hbase

最新推荐文章于 2024-11-30 13:02:48 发布

張不惑

最新推荐文章于 2024-11-30 13:02:48 发布

阅读量842

点赞数

分类专栏：数据传输数据仓库文章标签： hbase spark big data

本文链接：https://blog.youkuaiyun.com/xd1753762376/article/details/122850978

版权

本文记录了一次使用Spark从Hbase读取数据到Hive的实践过程。背景是由于Hive表丢失数据，而HBase中保存了正常的数据。计划通过Spark的newAPIHadoopRDD方式读取HBase数据，按时间戳筛选20220127到20220201的数据，并写入Hive的特定分区。在实现过程中遇到了行动算子缺失和HBase版本不匹配的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

记一次·Spark读Hbase

一、背景

过年回来，数仓发现hive的一个表丢数据了，需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据，有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份，并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。

HBase表内，只有一个列族info，列族内只有一个列value。
value为“|”分割的字段字符串。
“|”切割字符串得到最后一个字段为数据的时间戳，记为ts。
hive根据ts转换后的yyyyMMdd作为分区。

二、计划

计划使用Spark，通过newAPIHadoopRDD的方式读HBase数据到内存。
按照HBase中的timestamp过滤数据，取20220127到20220201之间的数据。
写入hdfs文件

三、代码

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

object SparkScanHBase {
   

  def main(args: Array[String]): Unit = {
   
    println(args)
    val startTS: String = args(0)
    val endTS: String = args(1)
    val path: String = args(2)

    val spark: SparkSession =
      SparkSession.builder().appName("SparkHBaseRDD")
        .config("spark.kryoserializer.buffer"