(六)数据存储——HBase

HBase概述

引言

HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。
HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。
HBase主要用来储存非结构化和半结构化的松散数据

特点

  • 大:一个表可以有上亿行,上百万列
  • 面向列:面向列(簇)的存储和权限控制,列(簇)独立检索
  • 稀疏:对于空(null)的列,并不占用存储空间
  • 数据多版本:每个单元中的数据可以有多个版本,默认情况下,版本号自动分配(时间戳)
  • 数据类型单一:HBase中的数据都是字符串、没有类型。

HBase和关系数据库区别

数据库类型:HBase只有字符串类型(string)
数据操作:HBase只有普通的CRUD,没有表的关联查询
存储模式:HBase是基于列式存储模式,而RDBMS是基于行式存储的
应用场景:HBase适合存储大量数据,查询效率极高

使用场景

  • 抓取增量数据

抓取来自各种数据源的增量数据

  • 内容服务

各种各样的终端设备带来了另一个挑战:不同的设备需要以不同的格式使用同样的内容。

  • 信息交换

数亿人通过社交网络进行对话,人们还想看看其他人对话的历史记录。让社交网络感到幸运的是,保存这些历史记录很廉价,大数据领域的创新可以帮助他们充分利用廉价的存储。

CAP理论

CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。
一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)。
可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)。
分区容忍性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。
AP原则的精髓就是要么AP,要么CP,要么AC,但是不存在CAP。如果在某个分布式系统中数据无副本, 那么系统必然满足强一致性条件, 因为只有独一数据,不会出现数据不一致的情况,此时C和P两要素具备,但是如果系统发生了网络分区状况或者宕机,必然导致某些数据不可以访问,此时可用性条件就不能被满足,即在此情况下获得了CP系统,但是CAP不可同时满足

CAP

HBase架构图

HBase

HBase数据结构

  1. 行键(RowKey)

用来检索记录的主键。
注意:RowKey可以是任意字符串(最大长度是64KB)。数据按照RowKey的字典顺序排序存储。设计RowKey时要充分考虑排序存储的特性,将经常一起读取的行存储放到一起(位置相关性)。

  1. 列簇(Column Family)

其实就是列的集合,HBase表中的每个列,都归属于某个列簇。
列簇是表的Schema的一部分(而列不是),必须在使用表之前定义。列名都以列簇作为前缀。

  1. 记录(Cell)

由rowkey、colume Family:column(值)、version组成的唯一的单元。
注意:cell中的数据是没有类型的,全部是字节码形式存储。

  1. 时间戳(TimeStamps)

HBase中通过rowkey和columns确定的为一个存储单元成为cell。时间戳可以由HBase在数据写入时自动赋值,也可以由客户显示赋值,不同版本的数据安装时间顺序倒序排序,即最新的数据排在最前面。

HBase安装&配置

1. 运行环境

  • HDFS
  • zookeeper

2. 安装和配置

  1. 配置环境变量
export HBASE_HOME=/home/hbase/hbase-1.2.4
export HBASE_MANAGES_ZK=false  # 使用外部ZK,禁用自带的ZK
export PATH=$PATH:$HBASE_HOME/bin
  1. 修改配置文件
    hbase-site.xml
<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://192.168.160.10:9000/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>localhost</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
    </property>
</configuration>

3. 启动

[root@HadoopNode00 ~]# start-dfs.sh   # 首先保证hdfs启动
[root@HadoopNode00 ~]# /home/zk/zookeeper-3.4.6/bin/zkServer.sh start /home/zk/zookeeper-3.4.6/conf/zk.cfg  # 首先保证zk启动
[root@HadoopNode00 ~]# start-hbase.sh  # 直接通过指令启动
41708 HRegionServer  # 健康存活
41548 HMaster        # 健康存活

4. Web UI

http://your.host.name:16010

5. shell操作

命名空间:
创建:create_namespace ‘ace’,{‘user’=> ‘guojianhua’}
描述:describe_namespace ‘ace’
修改:alter_namespace ‘ace’,{‘user’=> ‘ACE’}
删除:drop_namespace ‘ace’
删除属性:alter_namespace ‘ace’,{METHOD => ‘unset’,NAME => ‘user’}
查所有:list_namespace
显示命名空间下的表:list_namespace_tables ‘ace’
表操作:
创建:create ‘ace:t_user’, ‘cf1’,’cf2’
查看详情:describe ‘ace:t_user’
删除:disable ‘ace:t_user’; drop ‘ace:t_user’
显示所有表list 
记录操作:
插入:put ‘ace:t_user’,1,’cf1:name’,’zs’ 
# 插入一条数据 在ace:t_user  行健为1  列簇cf1 字段名为name 值为zs
t = get_table ‘ace:t_user’ # 做表的引用
t.put 1,’cf1:sex’,’true’
更新:t.put 1,'cf1:name','zhangsan'
查询:t.get 1
# 获取所有rowkey 为1 列簇为cf1  列名为name  最多获取三个版本的数据
hbase(main):017:0> t.get 1 ,{COLUMNS=>'cf1:name',VERSIONS=>3}
# 根据某个时间戳进行获取
hbase(main):020:0> t.get 1 ,{COLUMNS=>'cf1:name',TIMESTAMP => 1572888590148}
# 根据时间戳区间进行获取
hbase(main):024:0> t.get 1 ,{COLUMNS=>'cf1:name',TIMERANGE => [157288850147,1572888630030],VERSIONS => 4}
删除:
# 直接进行删除
hbase(main):025:0> delete 'ace:t_user',1,'cf1:name'
# 引用删除
hbase(main):027:0> t.delete 1,'cf1:sex'
# 删除某个id下的所有数据
hbase(main):029:0> t.deleteall 1
# 删除某个id某个列簇某个字段所有版本的值
hbase(main):043:0> t.deleteall 1 ,'cf1:name'
0 row(s) in 0.0150 seconds
全表扫描:t.scan 
计数:t.count
追加:t.append 1,’cf1:name’,’123’
清空:truncate ‘ace:t_user’

6. Java API

  1. 依赖
<dependency>
   <groupId>org.apache.hbase</groupId>
   <artifactId>hbase-client</artifactId>
   <version>1.2.4</version>
</dependency>
  1. 获取客户端/关闭资源
	private Connection connection;
    private Admin admin;
    @Before
    public void getAdmin() throws Exception {
        Configuration conf = new Configuration();
        conf.set("hbase.zookeeper.quorum", "192.168.100.1");
        conf.set("hbase.zookeeper.property.clientPort", "2181");
        connection = ConnectionFactory.createConnection(conf);
        admin = connection.getAdmin();
    }

    @After
    public void close() throws Exception {
        admin.close();
        connection.close();
    }
  1. 命名空间操作
	 @Test
    public void changeNameSpace()  throws Exception{
        NamespaceDescriptor namespaceDescriptor = NamespaceDescriptor.create("hadoop").removeConfiguration("baizhi").build();
        admin.modifyNamespace(namespaceDescriptor);
    }

	@Test
    public void deleteNameSpace() throws Exception{
        admin.deleteNamespace("hadoop");
    }

    @Test
    public void listNameSpace() throws Exception {
        NamespaceDescriptor[] namespaceDescriptors = admin.listNamespaceDescriptors();
        for (NamespaceDescriptor namespaceDescriptor : namespaceDescriptors) {
            System.out.println(namespaceDescriptor.getName());
        }
    }

  1. 表操作
 @Test
    public void createTable() throws Exception {
        /*
         * 将表的名字信息封装到TableName中
         * */
        TableName tableName = TableName.valueOf("baizhi:t_java");


        /*
         *
         * 创建描述表的对象 并提供表的名字
         * */
        HTableDescriptor tableDescriptor = new HTableDescriptor(tableName);


        /*
         * 描述列簇的对象  并指定列簇的名字
         * */
        HColumnDescriptor cf1 = new HColumnDescriptor("cf1");
        // 设置 最大可存的版本
        cf1.setMaxVersions(3);

        /*
         * 描述列簇的对象  并指定列簇的名字
         * */
        HColumnDescriptor cf2 = new HColumnDescriptor("cf2");
        // 设置 最大可存的版本
        cf2.setMaxVersions(3);

        // 在表中添加必要的属性:列簇
        tableDescriptor.addFamily(cf1);
        tableDescriptor.addFamily(cf2);


        /*
        * 使用admin对象创建表
        * */
        admin.createTable(tableDescriptor);

    }

    @Test
    public void deleteTable() throws Exception {
        TableName tableName = TableName.valueOf("baizhi:t_java");
        if (admin.tableExists(tableName)) {

            admin.disableTable(tableName);

            admin.deleteTable(tableName);
        }

    }
  1. 记录操作
    put

    @Test
    public void putData() throws Exception {

        TableName tableName = TableName.valueOf("baizhi:t_user");

        Table table = connection.getTable(tableName);

        /*
         * 封装  一行 数据
         * */
        Put put = new Put("1".getBytes());
        /*
         * 参数列表  :  列簇  列名  值
         * */
        put.addColumn("cf1".getBytes(), "name".getBytes(), "zhangsan".getBytes());
        put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
        put.addColumn("cf2".getBytes(), "age".getBytes(), "18".getBytes());
        put.addColumn("cf2".getBytes(), "salary".getBytes(), "1000".getBytes());


        table.put(put);
        table.close();

    }

批量插入

 @Test
    public void putManyData() throws Exception {

        TableName tableName = TableName.valueOf("baizhi:t_user");

        Table table = connection.getTable(tableName);

        /*
         * 封装  一行 数据
         * */
        Put put = new Put("2".getBytes());
        /*
         * 参数列表  :  列簇  列名  值
         * */
        put.addColumn("cf1".getBytes(), "name".getBytes(), "lisi".getBytes());
        put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
        put.addColumn("cf2".getBytes(), "age".getBytes(), "20".getBytes());
        put.addColumn("cf2".getBytes(), "salary".getBytes(), "20000".getBytes());

        ArrayList<Put> puts = new ArrayList<Put>();
        puts.add(put);


        table.put(puts);
        table.close();

    }

@Test
    public void putManyData() throws Exception {

        TableName tableName = TableName.valueOf("baizhi:t_user");


        BufferedMutator bufferedMutator = connection.getBufferedMutator(tableName);


        /*
         * 封装  一行 数据
         * */
        Put put = new Put("2".getBytes());
        /*
         * 参数列表  :  列簇  列名  值
         * */
        put.addColumn("cf1".getBytes(), "name".getBytes(), "ls".getBytes());
        put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
        put.addColumn("cf2".getBytes(), "age".getBytes(), "20".getBytes());
        put.addColumn("cf2".getBytes(), "salary".getBytes(), "20000".getBytes());

        ArrayList<Put> puts = new ArrayList<Put>();
        puts.add(put);

        bufferedMutator.mutate(puts);
        bufferedMutator.close();


    }

delete


    @Test
    public void deleteData() throws Exception {
        TableName tableName = TableName.valueOf("baizhi:t_user");

        Table table = connection.getTable(tableName);

        Delete delete = new Delete("2".getBytes());

        table.delete(delete);
        table.close();


    }

批量删除


    @Test
    public void deleteManyData() throws Exception {
        TableName tableName = TableName.valueOf("baizhi:t_user");


        Table table = connection.getTable(tableName);

        Delete delete = new Delete("1".getBytes());

        table.delete(delete);
        table.close();


    }

get

 @Test
    public void getData() throws Exception{

        Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));

        Get get = new Get("2".getBytes());

        Result result = table.get(get);

        /*
        * 列簇    列名
        * */
        byte[] name = result.getValue("cf1".getBytes(), "name".getBytes());
        byte[] pwd = result.getValue("cf1".getBytes(), "pwd".getBytes());
        byte[] age = result.getValue("cf2".getBytes(), "age".getBytes());
        byte[] salary = result.getValue("cf2".getBytes(), "salary".getBytes());

        System.out.println("名字为:"+Bytes.toString(name)+", 密码为:"+Bytes.toString(pwd)+",年龄为:"+Bytes.toString(age)+",工资为:"+Bytes.toString(salary));

    }

获取多个版本的数据

 @Test
    public void getManyData() throws Exception {

        Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));
        Get get = new Get("2".getBytes());
        get.setMaxVersions(3);
        get.addColumn("cf1".getBytes(), "name".getBytes());

        Result result = table.get(get);
        List<Cell> columnCells = result.getColumnCells("cf1".getBytes(), "name".getBytes());

        for (Cell columnCell : columnCells) {


            byte[] rowData = CellUtil.cloneRow(columnCell);
            byte[] cfData = CellUtil.cloneFamily(columnCell);
            byte[] qualifierData = CellUtil.cloneQualifier(columnCell);
            byte[] data = CellUtil.cloneValue(columnCell);
            System.out.println("行健为:" + Bytes.toString(rowData) + ", 列簇为:" + Bytes.toString(cfData) + ",列名为:" + Bytes.toString(qualifierData) + ",名字为:" + Bytes.toString(data));

        }
    }

scan

@Test
    public void scanData() throws Exception {


        Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));

        Scan scan = new Scan();

        // scan.addFamily("cf1".getBytes());
        //scan.addColumn("cf1".getBytes(),"name".getBytes());

        PrefixFilter prefixFilter1 = new PrefixFilter("1".getBytes());
        PrefixFilter prefixFilter2 = new PrefixFilter("2".getBytes());

        FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE, prefixFilter1, prefixFilter2);


        scan.setFilter(filterList);

        ResultScanner scanner = table.getScanner(scan);
        for (Result result : scanner) {
            System.out.println("------------------");
            byte[] name = result.getValue("cf1".getBytes(), "name".getBytes());
            byte[] pwd = result.getValue("cf1".getBytes(), "pwd".getBytes());
            byte[] age = result.getValue("cf2".getBytes(), "age".getBytes());
            byte[] salary = result.getValue("cf2".getBytes(), "salary".getBytes());

            System.out.println("名字为:" + Bytes.toString(name) + ", 密码为:" + Bytes.toString(pwd) + ",年龄为:" + Bytes.toString(age) + ",工资为:" + Bytes.toString(salary));


        }

    scanner.close();
        table.close();
    }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郭建華

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值