记一次·Spark读Hbase

本文记录了一次使用Spark从Hbase读取数据到Hive的实践过程。背景是由于Hive表丢失数据,而HBase中保存了正常的数据。计划通过Spark的newAPIHadoopRDD方式读取HBase数据,按时间戳筛选20220127到20220201的数据,并写入Hive的特定分区。在实现过程中遇到了行动算子缺失和HBase版本不匹配的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记一次·Spark读Hbase

一 、背景

过年回来,数仓发现hive的一个表丢数据了,需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据,有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份,并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。

  1. HBase表内,只有一个列族info,列族内只有一个列value。
  2. value为“|”分割的字段字符串。
  3. “|”切割字符串得到最后一个字段为数据的时间戳,记为ts。
  4. hive根据ts转换后的yyyyMMdd作为分区。
二、计划
  1. 计划使用Spark,通过newAPIHadoopRDD的方式读HBase数据到内存。
  2. 按照HBase中的timestamp过滤数据,取20220127到20220201之间的数据。
  3. 写入hdfs文件
三、代码
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

object SparkScanHBase {
   

  def main(args: Array[String]): Unit = {
   
    println(args)
    val startTS: String = args(0)
    val endTS: String = args(1)
    val path: String = args(2)

    val spark: SparkSession =
      SparkSession.builder().appName("SparkHBaseRDD")
        .config("spark.kryoserializer.buffer"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值