概述:
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表 。
特点及局限:
特点:(1)大:一个表可以有数十亿行,上百万列;
(2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;
(3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;?
(4)稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏;
(5)数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;
(6)数据类型单一:Hbase中的数据都是字符串,没有类型。
局限:读写访问均是非常简单的操作。提供了get和scan两种方式,也不存在多表联合查询的问题。
应用场景:
(1)半结构化或非结构化数据:对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。以上面的例子为例,当业务发展需要存储author的e