spark读取hbae的Demo

最新推荐文章于 2020-04-17 06:58:56 发布

csdncjh

最新推荐文章于 2020-04-17 06:58:56 发布

阅读量702

点赞数

CC 4.0 BY-SA版权

分类专栏： # spark 文章标签： scala

本文链接：https://blog.youkuaiyun.com/csdncjh/article/details/53013137

spark 专栏收录该内容

4 篇文章

订阅专栏

本文介绍如何使用Apache Spark从HBase中读取数据。通过配置Spark和HBase的连接参数，利用NewAPIHadoopRDD API实现数据读取，并展示了读取结果的处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.log4j.{Level, LogManager}
import org.apache.spark.{SparkConf, SparkContext};
/**
  * Created by owlcabin on 2016/5/27.
  */
object SparkHBase  {
  def main(args: Array[String]): Unit = {
    //Spark环境初始化
    val sparkConf = new SparkConf()
    val sparkContext = new SparkContext(sparkConf)
    LogManager.getRootLogger.setLevel(Level.WARN)
    val sqlContext = new org.apache.spark.sql.SQLContext(sparkContext)


    //通过zookeeper获取HBase连接
    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set("hbase.zookeeper.property.clientPort", "2181")
    hbaseConf.set("hbase.zookeeper.quorum", "dmp01,dmp02,dmp03,dmp04,dmp05")

    //设置读取表名
    hbaseConf.set(TableInputFormat.INPUT_TABLE, "t_prod_weixin_art")
    //设置读取列组
    hbaseConf.set(TableInputFormat.SCAN_COLUMNS, "info")
    //应用newAPIHadoopRDD读取HBase，返回NewHadoopRDD
    val hbaseRDD = sparkContext.newAPIHadoopRDD(hbaseConf, classOf[TableInputFormat],
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result])


    //读取结果集RDD，返回一个MapPartitionsRDD
    val resRDD = hbaseRDD.map(tuple => tuple._2)

    //打印读取数据内容
    resRDD.map(r => (Bytes.toString(r.getRow),
      Bytes.toString(r.getValue(Bytes.toBytes("info"), Bytes.toBytes("content"))))).take(10).foreach(println(_))
  }

}