花了二天时间看了下相关资料,当然也做了些demo,感觉挺好。
hbase 是基于hdfs的,分布式的面向列储存的数据储存系统。正是这些特点,使得它是很好应用于实时读写,随时访问超大数据集的情景。
在结构上,有点类似于hdfs设计,同样由hbase master,hregion sever(slaves).组成,其中hregion储存基于个region(相当于table)。在建立region时,需要定义好column family(我把它看作是有点类似super class,因为后面可以随时根据这个添加新的column元素,并且重要的是它们都具有family一样的属性).
hbase存储时是根据列族依存的。
Although at a conceptual level, tables may be viewed as a sparse set of rows, physically they are stored on a per-column family basis. This is an important consideration for schema and application designers to keep in mind.
cell为空时(没存放过数据),是不会在列族上儲存的。
当取出一个一行时没有指定time stamp,但对于某些column families有若干个版本时,每个family只取出最后一个版本数据。
具体也可以参见taobao架构师的文章。http://blog.youkuaiyun.com/cenwenchu79/archive/2008/08/08/2786388.aspx