Spark的DataFrame、RDD写入到HBase的方法（Scala）

最新推荐文章于 2024-04-09 16:35:56 发布

原创

最新推荐文章于 2024-04-09 16:35:56 发布 · 3.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#RDD #Dataframe #Spark #HBase #多列写入

本文介绍了三种将Spark DataFrame和RDD写入HBase的方法：1) 使用DataFrame的saveAsHadoopDataset，适合批量写入但速度较慢；2) 利用HTable的put方法，适用于数据量较小的情况；3) 执行BulkLoad操作，通过HFile批量加载大量数据，适用于大数据量写入。

一、使用DataFrame.saveAsHadoopDataset(conn)方法。
特点：适合做批量的写入。优点为批量写入方便快捷。缺点对于数据量大的DF写入速度太慢。

val conn = new JobConf(HBaseConfigurationcreate())//设置HBase连接
conn.set(,)
conn.set(,)//设置Host和Port
conn.set(TableOutputFormat.OUTPUT_TABLE,“targetTableName”)//设置要插入到的HBase表名
conn.setOutputFormat()
df.rdd.map(x=>{
	val put  = new Put(Bytes.toBytes(x.getString(0)))  //参数为rowkey
	put.addColumn(Bytes.toBytes("columnFamilyname"),Bytes.toBytes("columnName1"),Bytes.toBytes("columnValue1")
	put.addColumn(Bytes.toBytes("columnFamilyname"),Bytes.toBytes("columnName2"),Bytes.toBytes("columnValue2")
	put.addColumn(Bytes.toBytes("columnFamilyname"),Bytes.toBytes("columnName3"),Bytes.toBytes("columnValue3")
	(new ImmutableBytesWritable, put)  //返回元组
}).saveAsHadoopDataset(conn) //存入HBase

二、使用HTable.put(Put)方法。
更可靠，使用数据量更小。


df.rdd.map(x => {
      val put = new Put(Bytes.toBytes("rowkeyString"))
      put.addColumn(Bytes.toBytes("columnFamilyNmae"),

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EnterPine

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark 批量写数据入HBase

mach_learn的专栏

06-02

3782

介绍工作中常常会遇到这种情形，需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据，花费时间大概20分钟左右，本文Spark可用核数量为20。

干货：Spark RDD写入HBase 优化

王某的博客

05-09

2785

一、hbase.regionserver.handler.count 该配置参数用于定义regionserver上用于等待响应用户表级请求的线程数，通常的配置规则是：当每次请求的数据量较大时（如接近MB的单次put，cache较大的scan操作），设小一些；当每次请求负载较小时，则可把该值配置较大。同时在请求的数据量大小收到参数。如果单个请求的数据量很大，并且将该值配置的很大时，put并...

参与评论您还未登录，请先登录后发表或查看评论

Spark DataFrame写入HBase的常用方式

weixin_34302798的博客

02-28

569

Spark是目前最流行的分布式计算框架，而HBase则是在HDFS之上的列式分布式存储引擎，基于Spark做离线或者实时计算，数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介，供客户端使用。因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可... 代码在sp...

Spark -- RDD写入HBase示例

TheBigBlue的博客

07-15

840

向导POM示例说明 POM <properties> <scala.version>2.11</scala.version> <spark.version>2.2.0</spark.version> <scope>complie</scope>  </p

Java实现Spark将DataFrame写入到HBase

冬哥不是东哥的博客

04-26

1861

需要的包： import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescripto...

spark 存入hbase_Spark DataFrame写入HBase的常用方式

weixin_40004057的博客

12-19

515

Spark RDD编程读写HBase数据

日常分享数据分析开发、编程语言内容

03-13

1476

Spark RDD编程读写HBase数据

Hbase Spark将Hive数据写入Hbase/Lindorm

最新发布

文文x的博客

04-09

298

【代码】Hbase Spark将Hive数据写入Hbase/Lindorm。

大数据spark框架常用数据类型RDD与DataFrame的区别

技术专家

04-20

2384

大数据spark框架常用数据类型RDD与DataFrame的区别，在spark中，RDD、DataFrame是最常用的数据类型，在ApacheSpark里面DF 优于RDD但也包含了RDD的特性，在使用的过程中分别介绍下两者的区别和各自的优势。 1、RDD是什么？ RDD（Resilient Distributed Datasets）提供了一种高度受限的共享内存模型。即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（如map、join和group by）而创建，然而这些限制使.

spark 写入dataframe到hbase

Wangzx的博客

10-09

781

spark 写入dataframe到hbase import org.apache.spark.sql.SparkSession import org.apache.hadoop.mapreduce.Job import org.apache.hadoop.hbase.util.Bytes import org.apache.hadoop.conf.Configuration import org...

sparksql：dataframe数据写入到Hbase中

weixin_44768806的博客

03-03

1768

一、步骤：在idea中编程 1.1 添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sc...

spark rdd 读写hbase数据

eyeofeagle的博客

11-26

1072

hive 作为mapreduce计算引擎，可以使用hql来操作hbase表（hbase也可以访问hive表的数据)， spark也是计算引擎，按理也是可以读写hbase数据的使用idea + maven 读写hbase数据，操作如下： 1，添加maven依赖 &amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId&amp;amp;gt;org.a

Spark RDD批量写入Hbase

weixin_30647065的博客

03-04

619

转载于:https://www.cnblogs.com/yfb918/p/10471627.html

spark 存入hbase_Spark rdd写入Hbase

weixin_33402215的博客

01-12

247

I am able to read the messages from Kafka using the below code:val ssc = new StreamingContext(sc, Seconds(50))val topicmap = Map("test" -> 1)val lines = KafkaUtils.createStream(ssc,"127.0.0.1:2181"...

hbase+dataframe+java,spark踩坑——dataframe写入hbase连接异常

weixin_31419153的博客

03-19

218

最近测试环境基于shc[https://github.com/hortonworks-spark/shc]的hbase-connector总是异常连接不到zookeeper，看下报错日志：18/06/20 10:45:02 INFO RecoverableZooKeeper: Process identifier=hconnection-0x5175ab05 connecting to ZooKe...

SparkRDD 读写HBase

qq_34341930的博客

04-23

380

首先导入POM依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache

hbase+dataframe+java_Java实现Spark将DataFrame写入到HBase

weixin_35881620的博客

02-28

156

需要的包：import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;impo...

Pyspark以DataFrame格式读写Hbase

w271255278的专栏

11-11

1939

Pyspark以DataFrame格式读写Hbase 本文代码参考了__miss的博客，特别感谢，原文地址如下链接:https://blog.youkuaiyun.com/u011412768/article/details/93404921 我使用的环境：CDH集群，资源监控使用的yarn, spark2.3，hbase1.6 。读写方式：Hbase默认API 默认环境大家都已配置好。代码可以...

spark 存入hbase_Spark DataFrame 写入 HBase 的常用方式

weixin_39940182的博客

12-19

468

Spark DataFrame 写入 HBase 的常用方式Spark 是目前最流行的分布式计算框架, 而 HBase 则是在 HDFS 之上的列式分布式存储引擎, 基于 Spark 做离线或者实时计算, 数据结果保存在 HBase 中是目前很流行的做法例如用户画像单品画像推荐系统等都可以用 HBase 作为存储媒介, 供客户端使用因此 Spark 如何向 HBase 中写数据就成为很重要的一个环...

Java与Spark集成Hive与HBase API开发总结

在Spark中，可以通过Spark SQL访问Hive，也可以通过Spark的RDD或DataFrame API来访问HBase数据。利用Spark的这些API可以实现对Hive和HBase的高效数据处理和分析。 4. **Java和Scala**：Java是一种广泛使用的通用...