Apache HBase 是 Hadoop 生态环境中的键值存储系统(Key-value Store)。它构建在 HDFS 之上,可以对大型数据进行高速的读写操作。HBase 的开发语言是 Java,因此提供了原生的 Java 语言客户端。不过,借助于 Thrift 和其丰富的语言扩展,我们可以十分便捷地在任何地方调用 HBase 服务。文本将讲述的就是如何使用 Thrift 和 Python 来读写 HBase。
生成 Thrift 类定义
如果你对 Apache Thrift 并不熟悉,它提供了一套 IDL(接口描述语言),用于定义远程服务的方法签名和数据类型,并能将其转换成所需要的目标语言。举例来说,以下是用该 IDL 定义的一个数据结构:
struct TColumn {
1: required binary family,
2: optional binary qualifier,
3: optional i64 timestamp
}
转换后的 Python 代码是:
class TColumn(object):
def __init__(self, family=None, qualifier=None, timestamp=None,):
self.family = family
self.qualifier = qualifier
self.timestamp = timestamp
def read(self, iprot):
iprot.readStructBegin()
while True:
(fname, ftype, fid) = iprot.readFieldBegin()
# ...
def write(self, oprot):
oprot.writeStructBegin('TColumn')
# ...
HBase Thrift vs Thrift2
HBase 提供了 两个版本 的 IDL 文件,它们有以下两个不同点:
首先,thrift2
模仿了 HBase Java API 的数据类型和方法定义,调用方式更人性化一些。比如,构建一个 Get
操作的 Java 代码是:
Get get = new Get(Bytes.toBytes(<