spark 操作 hbase

最新推荐文章于 2025-05-14 16:24:51 发布

原创最新推荐文章于 2025-05-14 16:24:51 发布 · 457 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hbase

hbase 专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何使用Apache Spark操作HBase数据库，包括配置环境、设置连接参数及读取HBase表的方法。通过具体实例展示了如何利用Spark RDD进行HBase数据读取，并计数记录数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

添加hbase 的jar 包，在{SPARK_HOME}/conf/spark-env.sh 中添加<span style="white-space:pre">	</span>

<span style="white-space:pre"></span><pre name="code" class="plain">export SPARK_CLASSPATH=/usr/local/hbase/hbase-0.96.2-hadoop2/lib/*

spark 操作 hbase 跟 java 操作hbase 一样一样的。

import org.apache.spark._  
import org.apache.spark.rdd.NewHadoopRDD 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.mapreduce.TableInputFormat 
import org.apache.hadoop.hbase.client.HBaseAdmin
val configuration = HBaseConfiguration.create();  
configuration.set("hbase.zookeeper.property.clientPort", "2181");
configuration.set("hbase.zookeeper.quorum", "ubuntu3,ubuntu1,ubuntu2");   
configuration.set("hbase.master", "ubuntu1:60000");  //设置hbase master  
configuration.addResource("/usr/local/hbase/hbase-0.96.2-hadoop2/conf/hbase-site.xml")  
configuration.set(TableInputFormat.INPUT_TABLE, "person")
val hadmin = new HBaseAdmin(configuration); 
val hrdd=sc.newAPIHadoopRDD(configuration,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result]) 

hrdd.count