Java实现Spark将DataFrame写入到HBase

最新推荐文章于 2024-04-09 16:35:56 发布

原创

最新推荐文章于 2024-04-09 16:35:56 发布 · 1.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #HBase #Java #DataFrame #MySQL

本文介绍了如何利用Java编程，在Apache Spark环境中将DataFrame数据有效地写入到HBase数据库。内容涵盖所需的依赖库，具体的功能实现代码，并展示了操作结果。期待读者提供优化建议。

需要的包：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.mapreduce.Job;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SQLContext;
import java.util.HashMap

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

冬哥不是东哥

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark的DataFrame、RDD写入到HBase的方法（Scala）

恩特尔派

01-10

3208

一、使用DataFrame.saveAsHadoopDataset(conn)方法。特点：适合做批量的写入。优点为批量写入方便快捷。缺点对于数据量大的DF写入速度太慢。 val conn = new JobConf(HBaseConfigurationcreate())//设置HBase连接 conn.set(,) conn.set(,)//设置Host和Port conn.set(TableO...

spark 存入hbase_Spark DataFrame写入HBase的常用方式

weixin_40004057的博客

12-19

515

Spark是目前最流行的分布式计算框架，而HBase则是在HDFS之上的列式分布式存储引擎，基于Spark做离线或者实时计算，数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介，供客户端使用。因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可...代码在spark ...

参与评论您还未登录，请先登录后发表或查看评论

Spark DataFrame写入HBase的常用方式

weixin_34302798的博客

02-28

569

spark 存入hbase_Spark 使用Java 写入 HBase

weixin_39584405的博客

12-19

362

实例代码：package com.bigdata.spark.hbase;import java.io.IOException;import java.util.List;import java.util.regex.Pattern;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseCon...

Spark 使用Java 写入 HBase

wang609128516的专栏

06-26

1848

实例代码： package com.bigdata.spark.hbase; import java.io.IOException; import java.util.List; import java.util.regex.Pattern; import org.apache.hadoop.conf.Configuration; import org.apache.h...

spark运算结果写入hbase及优化

weixin_30294295的博客

02-26

304

在Spark中利用map-reduce或者spark sql分析了数据之后，我们需要将结果写入外部文件系统。本文，以向Hbase中写数据，为例，说一下，Spark怎么向Hbase中写数据。首先，需要说一下，下面的这个方法。 foreach (func) 最通用的输出操作，把func作用于从map-reduce生成的每一个RDD(spark sql生成的DataFrame可...

Hbase Spark将Hive数据写入Hbase/Lindorm

文文x的博客

04-09

300

【代码】Hbase Spark将Hive数据写入Hbase/Lindorm。

spark 数据写入到 hbase

potter

07-26

2772

1）spark把数据写入到hbase需要用到：PairRddFunctions的saveAsHadoopDataset方法，这里用到了 implicit conversion，需要我们引入 import org.apache.spark.SparkContext._ 2）spark写入hbase，实质是借用了org.apache.hadoop.hbase.mapreduce.TableInpu...

spark 操作 hbase 之写入 hbase

heqingcool的博客

06-03

4421

1 概述在大数据的应用场景中，hbase常用在实时读写。写入 HBase 的方法大致有以下几种： 1）Java 调用 HBase 原生 API，HTable.add(List(Put))。 2）使用 TableOutputFormat 作为输出。 3）Bulk Load，先将数据按照 HBase 的内部数据格式生成持久化的 HFile 文件，然后复制到合适的位置并通知 RegionServer ，即完成海量数据的入库。其中生成 Hfile 这一步可以选择 MapReduce

hbase+dataframe+java,spark踩坑——dataframe写入hbase连接异常

weixin_31419153的博客

03-19

218

最近测试环境基于shc[https://github.com/hortonworks-spark/shc]的hbase-connector总是异常连接不到zookeeper，看下报错日志：18/06/20 10:45:02 INFO RecoverableZooKeeper: Process identifier=hconnection-0x5175ab05 connecting to ZooKe...

Kafka集成Spark Streaming并写入数据到HBase

01-17

使用方法：请使用eclipse的maven导入方式导入，代码在http://blog.youkuaiyun.com/q79969786/article/details/42793487有介绍

spark-hbase-ingestion:Spark HBase使用DataFrame进行读写

05-17

使用数据框的spark-hbase-ingestion / ** 转换记录以插入HBase的方法 @param记录 @param cf列族 @返回 */ def toHbaseRecords（记录：Array [（String，Array [（String，String）]）]，cf：String）：RDD [（Array [Byte]，Array [（Array [Byte]，Array [Byte]，Array [Byte） ]）]）] = {sc.parallelize（records.map（x =>（ct（x._1），x._2.map（x =>（ct（cf），ct（x._1），ct（ x._2）））））））} / ** HBase表中插入大容量rdd的方法 @param tableName @param rdd * / def toHbaseBulkPutRDD（t

spark 写入dataframe到hbase

Wangzx的博客

10-09

783

spark 写入dataframe到hbase import org.apache.spark.sql.SparkSession import org.apache.hadoop.mapreduce.Job import org.apache.hadoop.hbase.util.Bytes import org.apache.hadoop.conf.Configuration import org...

hbase+dataframe+java_Java实现Spark将DataFrame写入到HBase

weixin_35881620的博客

02-28

156

需要的包：import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;impo...

Pyspark以DataFrame格式读写Hbase

w271255278的专栏

11-11

1940

Pyspark以DataFrame格式读写Hbase 本文代码参考了__miss的博客，特别感谢，原文地址如下链接:https://blog.youkuaiyun.com/u011412768/article/details/93404921 我使用的环境：CDH集群，资源监控使用的yarn, spark2.3，hbase1.6 。读写方式：Hbase默认API 默认环境大家都已配置好。代码可以...

spark 存入hbase_Spark DataFrame 写入 HBase 的常用方式

weixin_39940182的博客

12-19

468

Spark DataFrame 写入 HBase 的常用方式Spark 是目前最流行的分布式计算框架, 而 HBase 则是在 HDFS 之上的列式分布式存储引擎, 基于 Spark 做离线或者实时计算, 数据结果保存在 HBase 中是目前很流行的做法例如用户画像单品画像推荐系统等都可以用 HBase 作为存储媒介, 供客户端使用因此 Spark 如何向 HBase 中写数据就成为很重要的一个环...

spark读写hbase数据

敲码的汉子

01-17

4392

如果原始数据在hbase中，这时想用spark对hbase数据做一些批量计算，就可以用spark的api直接读写hbase数据读取hbase数据 import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.a

spark 写 hbase

weixin_45406835的博客

10-13

657

前戏: 1.spark操作结构化数据利用hbase进行去重 2.大致思路:将数据处理成结构化数据–>spark调用hadoop api 将数据以hfile形式存入hdfs—>以bulkload方式将数据批量导入hbase 以下以cdh5.16.2生产环境为例: hadoop版本:2.6.0 hbase版本:1.6.0 spark2版本:2.4.0 zk版本:3.4.5 1.所需依赖: <?xml version="1.0" encoding="UTF-8"?> <project

用spark将hive写入hbase