HBase数据模型

最新推荐文章于 2025-05-28 18:17:15 发布

bangci6459

最新推荐文章于 2025-05-28 18:17:15 发布

阅读量150

点赞数

文章标签：大数据数据库 java

原文链接：http://www.cnblogs.com/NicholasLee/archive/2012/09/13/2683272.html

版权

　　HBase是一个类似于Bigtable的分布式数据库，它是一个稀疏的长期存储的（存在硬盘上）、多维度的、排序的映射表。这张表的索引是行关键字；列关键字和时间戳。HBase中的数据都是字符串，没有类型。

　　用户在表格中存储数据，每一行都有一个可排序的主键和任意多的列。由于是稀疏存储，所以同一张表里面的每一行数据都可以有截然不同的列。

　　列名字的格式是"<family>:<qualifier>",都是由字符串组成的。每一张表有一个列族集合，这个集合是固定不变的，只能通过改变表结构来改变，但是qualifier的值相对于每一行来说都是可以改变的。

　　HBase把同一个列族的数据村住在同一个目录底下，如下图，artile和author分别是两个列族：

　　HBase所有数据库的更新都有一个时间戳标记，每个更新都是一个新的版本，HBase会保留一定数量的版本，这个值是可以设定的。

一、概念视图

RowKey	Time Stamp	Column Family:article		Column Family:author
RowKey	Time Stamp	列	值	列	值
rowkey1	t4	article:title	HBase in Action	author:name	lee
	t3	article:content	HBase is the hadoop database.	author:nickname	nicholas
	t2	article:tag	HBase,Hadoop,NoSQL
rowkey2	t1	...	...	...	...

　　如上图所示，blog表有两行数据，rowkey1和rowkey2，并且有两个列族article和author，在第一行数据中，列族article有三条数据，列族author有两条数据，每一条数据对应的时间戳都用数字来标示，编号越大标示数据越旧，反之数据越新。

二、物理视图

　　虽然从概念视图上来按每个表格是有很多行来组成的，但是在屋里存储上面，它是按照列来保存的，上面的概念视图在物理存储的时候应该表现成下面的样子：

RowKey	Time Stamp	Column Family:article
RowKey	Time Stamp	列	值
rowkey1	t6	article:title	HBase in Action
	t5	article:content	HBase is the hadoop database.
	t4	article:tag	HBase,Hadoop,NoSQL

RowKey	Time Stamp	Column Family:article
		列	值
rowkey1	t3	author:name	lee
	t2	author:nickname	nicholas

　　需要注意的是，在概念视图上的有些列是空白的，这样的列实际不会被存储，当请求这些空白的单元格时，会返回null值。如果在查询的时候不提供时间戳，那么会返回距离现在最近的那一个版本的数据，因为在存储的时候，数据会按照时间戳来排序。

三、HTable的一些基本概念（这一段内容来自http://www.taobaotest.com/blogs/qa?bid=13850）

Row key

　　行主键， HBase不支持条件查询和Order by等查询，读取记录只能按Row key（及其range）或全表扫描，因此Row key需要根据业务来设计以利用其存储排序特性（Table按Row key字典序排序如1,10,100,11,2）提高性能。

Column Family（列族）

　　在表创建时声明，每个Column Family为一个存储单元。在上例中设计了一个HBase表blog，该表有两个列族：article和author。

Column（列）

　　HBase的每个列都属于一个列族，以列族名为前缀，如列article:title和article:content属于article列族，author:name和author:nickname属于author列族。 Column不用创建表时定义即可以动态新增，同一Column Family的Columns会群聚在一个存储单元上，并依Column key排序，因此设计时应将具有相同I/O特性的Column设计在一个Column Family上以提高性能。

Timestamp

　　HBase通过row和column确定一份数据，这份数据的值可能有多个版本，不同版本的值按照时间倒序排序，即最新的数据排在最前面，查询时默认返回最新版本。如上例中row key=1的author:nickname值有两个版本，Timestamp默认为系统当前时间（精确到毫秒），也可以在写入数据时指定该值。

Value

　　每个值通过4个键唯一索引，tableName+RowKey+ColumnKey+Timestamp=>value，例如上例中 {tableName=’blog’,RowKey=’1’,ColumnName=’author:nickname’,Timestamp=’ 1317180718830’}可以索引到唯一值。