15分钟了解Phoenix

最新推荐文章于 2025-04-08 14:38:54 发布

翻译最新推荐文章于 2025-04-08 14:38:54 发布 · 1.4k 阅读

文章标签：

#hadoop #sql #apache

数据库专栏收录该内容

10 篇文章

订阅专栏

Phoenix是一款开源软件，为HBase提供了一层SQL接口，允许用户通过标准JDBC API进行表的创建、数据的插入和查询等操作。Phoenix不仅维持了与原生HBase客户端相当的性能水平，在某些场景下还能实现性能超越，这得益于其优化的扫描操作、服务端过滤和计算下推等功能。

关于Phoenix：

OLTP and operational analytics for Apache Hadoop
Phoenix is an open source SQL skin for HBase.
We put SQL back in NoSQL
Phoenix is relational layer over HBase

以下部分翻译自：https://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html

Phoenix是什么新东西？

Phoenix为HBase穿上一层SQL的外衣。所以你可以使用标准的JDBC API来创建表、插入数据、查询HBase中的数据，而不是使用常规的HBase客户端API。

在HBase和应用程序之间额外加入一层（Phoenix）会影响性能吗？

不会。跟原生的HBase客户端相比，Phoenix性能一样好甚至更好，主要通过以下方式：

将SQL查询编译成原生的HBase scan操作。
优化scan key的开始和结束位置
规划scan操作的并行
把计算移到数据节点
将where语句转化为服务端的过滤
聚合操作通过服务端的钩子来完成（co-processor）

除此之外，我们还做了一些工作使得性能得到一些有趣的提升：

使用二级索引提高非row key的查询
收集统计信息用于改善并行及优化决策
使用skip scan优化IN、LIKE、OR查询。
对row key进行加盐，使得写负载分布更均匀

Phoenix很快，但是为什么是SQL?

基于“使用人们熟悉的方式”，有什么方式可以使得HBase更容易使用吗？用JDBC和SQL：

减少代码量
对用户屏蔽行那你优化的细节
方便与现有其他工具集成

但是SQL如何能够支持我最喜欢的HBase特性x,y,z?

你一定没有关注最近的HBase Meetup吧？ SQL表达的是你想要什么样的数据，而不是如何获取数据。（注：声明式和过程式）。查看我的演讲PPT，获取Phoenix目前支持的以及计划支持的HBase特性。我们期待得到反馈，提交issue或者加入我们的邮件组.

说了那么多，我只想开始动手！

好的，跟着按照我们的安装教程:

下载并解压tar安装包
复制相应版本的phoenix 服务端jar包到每一台HBase region server的lib目录
重启region server
添加phoenix 客户端jar包到你的HBase客户端。
下载并设置SQuirrel作为你的SQL客户端，你就可以在你的HBase集群上执行adhoc SQL查询。

我不想下载和配置任何东西

没问题，你可以创建你自己的SQL脚本，并使用给我们的命令行工具执行脚本。让我们看一个例子。进入phoenix安装目录中的bin目录。

首先，创建us_opulation.sql文件，包含一个表的定义：

CREATE TABLE IF NOT EXISTS us_population (
      state CHAR(2) NOT NULL,
      city VARCHAR NOT NULL,
      population BIGINT
      CONSTRAINT my_pk PRIMARY KEY (state, city));

创建us_population.csv文件，并放入以下数据：

NY,New York,8143197
CA,Los Angeles,3844829
IL,Chicago,2842518
TX,Houston,2016582
PA,Philadelphia,1463281
AZ,Phoenix,1461575
TX,San Antonio,1256509
CA,San Diego,1255540
TX,Dallas,1213825
CA,San Jose,912332

最后，创建查询脚本us_population_queries.sql：

SELECT state as "State",count(city) as "City Count",sum(population) as "Population Sum"
FROM us_population
GROUP BY state
ORDER BY sum(population) DESC;

从命令行执行以下命令

./psql.py <your_zookeeper_quorum> us_population.sql us_population.csv us_population_queries.sql

恭喜你，你已经创建第一个Phoenix表，插入数据并执行查询，而你只花了15分钟左右的时间写了几行代码。

还有什么其他的呢？

你可已使用bin/perfoemance.py脚本创建任意多的数据，然后在上面做一些查询。

为什么叫做Phoenix？是不是其他项目挂了然后这是它的下一代？

很抱歉，我们没有时间和空间了，只能等到下次回答这个问题。