作者:禅与计算机程序设计艺术
1.简介
Hadoop是当下最流行的分布式计算框架之一,是一种可靠、高效、可扩展的数据分析系统。Apache HBase是一个开源的分布式 NoSQL 数据库,它可以充当 Hadoop 的核心组件,并存储海量结构化和半结构化数据,具有高容错性、高性能、自动分裂等特性。 本文将详细介绍HBase的一些基础概念和架构设计,并基于HBase实现简单的增删改查功能。同时会对比HBase和传统关系型数据库的特点,阐述其优缺点及适用场景。
2.基本概念术语说明
2.1.数据模型
2.1.1.行(Row)
在HBase中,每一个数据记录都由一个Row key和多个列组成,其中Row key即为该条记录的唯一标识符,它的大小一般在1KB到1MB之间。
2.1.2.列族(Column Family)
HBase中的列族概念类似于关系型数据库中的表格(Table)和字段(Field)。每一列簇(Column Family)中可以包含多列(Column),且每列具有一个唯一的名称和值。这种设计使得同一列簇中的不同列具有不同的属性,如索引、类型、编码方式等。 一个列簇中的所有列共享相同的属性&#x