Phoenix4.8整合Spark

最新推荐文章于 2024-08-27 05:00:00 发布

原创

最新推荐文章于 2024-08-27 05:00:00 发布 · 8k 阅读

8 ·

CC 4.0 BY-SA版权

本文介绍了如何在Spark shell中使用Phoenix4.8与HBase进行交互，详细阐述了建立连接、创建DataFrame、写入数据的过程，并给出了具体的命令示例。

本文使用Spark shel操作phoenix（参考官方文档http://phoenix.apache.org/phoenix_spark.html，解决了官方文档的一些问题）

通过phoenix提供的包来操作hbase比直接使用jdbc的方式更高效（因为比jdbc的方式更细粒度化的调度）

软件环境：

Phoenix4.8

HBase1.1.2

Spark1.5.2/1.6.3/2.x

1、在phoenix中建表

CREATE TABLE TABLE1 (ID BIGINT NOT NULL PRIMARY KEY, COL1 VARCHAR);
UPSERT INTO TABLE1 (ID, COL1) VALUES (1, 'test_row_1');
UPSERT INTO TABLE1 (ID, COL1) VALUES (2, 'test_row_2');

1、启动spark-shelll

spark-shell --jars /opt/phoenix4.8/phoenix-spark-4.8.0-HBase-1.1.jar,/opt/phoenix4.8/phoenix-4.8.0-HBase-1.1-client.jar

2、使用DataSource API，load为DataFrame

import org.apache.phoenix.spark._

val df = sqlContext.load("org.apache.phoenix.spark", Map("table" -> "TABLE1", "zkUrl" -> "192.38.0.231:2181"))
df.filter(df("COL1") === "test_row_1" && df("ID") === 1L).select(df("ID")).show

如果spark2.x版本，使用如下方式（前提是修改了phoenix-spark模块的代码，使之兼容spark2.x，重新编译）：

import org.apache.phoenix.spark._

val df = spark.read.for

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dingyuanpu

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

学习笔记：Spark 读取和写入Phoenix数据

瑞瑞ruirui的博客

12-09

2853

Phoenix 是使用 Java 编写的一个开源项目，基于在 HBase 之上的一个 SQL 层，能让我们通过标准的 JDBC API 读写 HBase，而不用 scan 或者 get 的方式，其实底层是将 SQL 编译成原生的 HBase scans 进行查询。引入依赖： <dependency> <groupId>org.apache.phoenix</groupId> <artifactId&g

利用spark读取phoenix(phoenix-spark)

枫叶的落寞的博客

04-19

6940

为何不是jdbc访问phoenix？具体原因参照phoenix官网地址：(https://phoenix.apache.org/phoenix_spark.html) 为何不是官网提倡的访问方式？官网提倡： import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext import org.apache....

参与评论您还未登录，请先登录后发表或查看评论

spark将数据写入phoenix

Yuan_CSDF的博客

07-25

2441

// log4j2 使用了全局异步打印日志的方式，还需要引入disruptor的依赖 def main(args: Array[String]): Unit = { val spark = SparkSession.builder().master("local[*]").appName("phoenix-test").getOrCreate() // 第一种读取方法 ...

spark查询phoenix数据

weixin_46386869的博客

07-30

679

spark查询phoenix数据报错： Caused by: java.sql.SQLException: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled 解决办法： ...

Spark读写Phoenix

weixin_44695980的博客

07-15

3713

Phoenix是使用Java编写的一个开源项目，基于在HBase之上的一个SQL层，能让我们通过标准的JDBC API读写HBase，而不用Scan或者get的方式，其实底层是将SQL编译成原生的HBase scans进行查询。本文将通过Spark的方式来读写Phoenix，基于以下版本开发测试。 scala-version：2.11.8 spark-version：2.2.0 ...

spark+phoenix

weixin_30535843的博客

10-15

350

phoenix作为查询引擎，为了提高查询效率，为phoenix表创建了二级索引，而数据是sparkstreaming通过hbase api直接向hbase插数据。那么问题来了，对于phoenix的二级索引，直接插入底层hbase的源表，不会引起二级索引的更新，从而导致phoenix索引数据和hbase源表数据不一致。而对于spark+phoenix的写入方式，官方有文档说明，但是有版本限制，...

Using Apache Phoenix 4.8

08-25

根据官网整理。Using Apache Phoenix Using Apache Phoenix Using Apache Phoenix Using Apache Phoenix Using Apache Phoenix Using Apache Phoenix Using Apache Phoenix。

精选资源

Ambari HDP 下 SPARK2 与 Phoenix 整合

01-20

在Ambari HDP环境下整合Spark2和Phoenix是一项关键任务，尤其对于大数据处理和分析的系统来说。这个过程涉及到多个组件的配置和交互，确保数据能够有效地通过Spark2查询和操作存储在Phoenix上的HBase数据库。首先...

spark+phoenix读取hbase

潮落拾贝

01-18

960

这是phoenix官网提供的代码，我执行没成功，显示org.apache.phoenix.spark.datasource.v2.PhoenixDataSource这个找不到，我不知道是我依赖包没引对还是其他原因，我的代码在上面的基础上做了一些改动。然后解压缩，将里面的phoenix-server-hbase-2.4-5.1.3.jar（你的版本可能和我下载的不一致，这个根据hadoop上安装的hbase的版本来定）拷贝到hbase/lib/目录下，然后重启hbase。最后执行成功的结果如下所示。

spark2.x不支持phoenix4.8 悲剧

weixin_43654136的博客

11-30

926

Spark 2.x isn’t currently supported in a released Phoenix version, but is slated for the upcoming 4.10.0 release. If you’d like to compile your own version in the meantime, you can find the ticket/pat...

apache-phoenix-4.8.1-HBase-1.2-bin.tar.gz

08-16

apache-phoenix-4.8.1-HBase-1.2-bin.tar.gz 。。。。。

Spark批处理读写Phoenix

邢为栋

03-19

897

关于Spark读写Phoenix，我找到两种方法，整理成笔记，用作备忘。方法一 Phoenix官方提供了Spark插件，可以激活Spark和Phoenix的交互。地址：http://phoenix.apache.org/phoenix_spark.html 如果使用CDH，Cloudera也提供了相应的工具，来实现Spark和Phoenix的交互。地址：https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/phoenix_spa

Hbase 集成 Phoenix

Sandy

09-21

1065

下载安装包解压到指定目录配置PHOENIX_HOME 拷贝phoenix jar包到hbase目录 # cp phoenix-core-5.0.0-HBase-2.0.jar /usr/local/hbase-2.1.0/lib/ # cp phoenix-5.0.0-HBase-2.0-client.jar /usr/local/hbase-2.1.0/lib/ ...

kafka+spark+phoenix 数据传递

weixin_43038063的博客

06-10

768

1.在IDEA新建一个maven项目： pom.xml <properties> <scala.version>2.11.8</scala.version> <spark.version>2.3</spark.version> <spark.artifact>2.11</spark.artifac...

Spark——Spark读写Phoenix

aof

07-20

911

文章目录1. Spark加载Phoenix表2. Spark持久化数据到Phoenix保存RDD到Phoenix保存DataFrame到Phoenix Phoenix为NoSQL数据库HBase提供了标准SQL和JDBC API的强大功能，且具备完整的ACID事务处理能力。对于小数据量的查询，其性能可以达到毫秒级别；对于数千万行的数据，其性能也可以达到秒级。要使用phoenix-spark插件，需要在项目中添加如下依赖： <dependency> <groupId>

大数据培训技术使用spark对phoenix的读写

zjjcchina的博客

09-20

265

相比于直接创建映射表，视图的查询效率会低，原因是：创建映射表的时候，Phoenix会在表中创建一些空的键值对，这些空键值对的存在可以用来提高查询效率。使用create table创建的关联表，如果对表进行了修改，源数据也会改变，同时如果关联表被删除，源表也会被删除。但是视图就不会，如果删除视图，源数据不会发生改变。想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训，尚硅谷除了这些技术文章外还有免费的高量大数据培训课程视频供广大学员下载学习。

Hbase入门以及Phoenix生产实战

゛Never give up~

09-18

660

Hbase官网http://hbase.apache.org/ Phoenix官网http://phoenix.apache.org/ 1.Hbase入门 1.1定位 Hadoop database, a distributed, scalable, big data store 分布式的，可扩展的数据库存储 random realtime read/write very l...

高性能关系数据库Phoenix

youziguo的专栏

08-27

1239

Apache Phoenix 是一个开源的关系数据库层，运行在 Apache HBase 之上，旨在为 HBase 提供 SQL 查询能力和优化的存储引擎。它允许用户使用标准的 SQL 查询和事务语义来管理 HBase 中的数据，并且可以与现有的大数据生态系统无缝集成。Phoenix 通过将 SQL 查询编译为一系列高效的 HBase 扫描操作，实现对 HBase 数据的快速查询和更新。

Phoenix基本使用

大数据知识梳理

01-09

2130

Phoenix基本使用

spark 读写phoenix