（六）数据存储——HBase_插入hbase的数据字符集怎么查看-优快云博客

本文链接：https://blog.youkuaiyun.com/ACE_GJH/article/details/103657373

文章目录

HBase概述

引言

HBase(Hadoop Database)，是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。
HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时，可以使用HBase。
HBase主要用来储存非结构化和半结构化的松散数据

特点

大：一个表可以有上亿行，上百万列
面向列：面向列(簇)的存储和权限控制，列（簇）独立检索
稀疏：对于空（null）的列，并不占用存储空间
数据多版本：每个单元中的数据可以有多个版本，默认情况下，版本号自动分配(时间戳)
数据类型单一：HBase中的数据都是字符串、没有类型。

HBase和关系数据库区别

数据库类型：HBase只有字符串类型(string)
数据操作：HBase只有普通的CRUD，没有表的关联查询
存储模式：HBase是基于列式存储模式，而RDBMS是基于行式存储的
应用场景：HBase适合存储大量数据，查询效率极高

使用场景

抓取增量数据

抓取来自各种数据源的增量数据

内容服务

各种各样的终端设备带来了另一个挑战：不同的设备需要以不同的格式使用同样的内容。

信息交换

数亿人通过社交网络进行对话，人们还想看看其他人对话的历史记录。让社交网络感到幸运的是，保存这些历史记录很廉价，大数据领域的创新可以帮助他们充分利用廉价的存储。

CAP理论

CAP原则又称CAP定理，指的是在一个分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition tolerance）。CAP 原则指的是，这三个要素最多只能同时实现两点，不可能三者兼顾。
一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）。
可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）。
分区容忍性（P）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A之间做出选择。
AP原则的精髓就是要么AP，要么CP，要么AC，但是不存在CAP。如果在某个分布式系统中数据无副本，那么系统必然满足强一致性条件，因为只有独一数据，不会出现数据不一致的情况，此时C和P两要素具备，但是如果系统发生了网络分区状况或者宕机，必然导致某些数据不可以访问，此时可用性条件就不能被满足，即在此情况下获得了CP系统，但是CAP不可同时满足

CAP

HBase架构图

HBase

HBase数据结构

行键(RowKey)

用来检索记录的主键。
注意：RowKey可以是任意字符串(最大长度是64KB)。数据按照RowKey的字典顺序排序存储。设计RowKey时要充分考虑排序存储的特性，将经常一起读取的行存储放到一起(位置相关性)。

列簇(Column Family)

其实就是列的集合，HBase表中的每个列，都归属于某个列簇。
列簇是表的Schema的一部分(而列不是)，必须在使用表之前定义。列名都以列簇作为前缀。

记录(Cell)

由rowkey、colume Family:column（值）、version组成的唯一的单元。
注意：cell中的数据是没有类型的，全部是字节码形式存储。

时间戳(TimeStamps)

HBase中通过rowkey和columns确定的为一个存储单元成为cell。时间戳可以由HBase在数据写入时自动赋值，也可以由客户显示赋值，不同版本的数据安装时间顺序倒序排序，即最新的数据排在最前面。

HBase安装&配置

1. 运行环境

HDFS
zookeeper

2. 安装和配置

配置环境变量

export HBASE_HOME=/home/hbase/hbase-1.2.4
export HBASE_MANAGES_ZK=false  # 使用外部ZK，禁用自带的ZK
export PATH=$PATH:$HBASE_HOME/bin

修改配置文件
hbase-site.xml

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://192.168.160.10:9000/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>localhost</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
    </property>
</configuration>

3. 启动

[root@HadoopNode00 ~]# start-dfs.sh   # 首先保证hdfs启动
[root@HadoopNode00 ~]# /home/zk/zookeeper-3.4.6/bin/zkServer.sh start /home/zk/zookeeper-3.4.6/conf/zk.cfg  # 首先保证zk启动
[root@HadoopNode00 ~]# start-hbase.sh  # 直接通过指令启动
41708 HRegionServer  # 健康存活
41548 HMaster        # 健康存活

4. Web UI

http://your.host.name:16010

5. shell操作

命名空间:
创建：create_namespace ‘ace’,{‘user’=> ‘guojianhua’}
描述：describe_namespace ‘ace’
修改：alter_namespace ‘ace’,{‘user’=> ‘ACE’}
删除：drop_namespace ‘ace’
删除属性：alter_namespace ‘ace’,{METHOD => ‘unset’,NAME => ‘user’}
查所有：list_namespace
显示命名空间下的表：list_namespace_tables ‘ace’
表操作：
创建：create ‘ace:t_user’, ‘cf1’,’cf2’
查看详情：describe ‘ace:t_user’
删除：disable ‘ace:t_user’; drop ‘ace:t_user’
显示所有表list 
记录操作：
插入：put ‘ace:t_user’,1,’cf1:name’,’zs’ 
# 插入一条数据 在ace:t_user  行健为1  列簇cf1 字段名为name 值为zs
t = get_table ‘ace:t_user’ # 做表的引用
t.put 1,’cf1：sex’,’true’
更新：t.put 1,'cf1:name','zhangsan'
查询：t.get 1
# 获取所有rowkey 为1 列簇为cf1  列名为name  最多获取三个版本的数据
hbase(main):017:0> t.get 1 ,{COLUMNS=>'cf1:name',VERSIONS=>3}
# 根据某个时间戳进行获取
hbase(main):020:0> t.get 1 ,{COLUMNS=>'cf1:name',TIMESTAMP => 1572888590148}
# 根据时间戳区间进行获取
hbase(main):024:0> t.get 1 ,{COLUMNS=>'cf1:name',TIMERANGE => [157288850147,1572888630030],VERSIONS => 4}
删除：
# 直接进行删除
hbase(main):025:0> delete 'ace:t_user',1,'cf1:name'
# 引用删除
hbase(main):027:0> t.delete 1,'cf1:sex'
# 删除某个id下的所有数据
hbase(main):029:0> t.deleteall 1
# 删除某个id某个列簇某个字段所有版本的值
hbase(main):043:0> t.deleteall 1 ,'cf1:name'
0 row(s) in 0.0150 seconds
全表扫描：t.scan 
计数：t.count
追加：t.append 1,’cf1:name’,’123’
清空：truncate ‘ace:t_user’

6. Java API

依赖

<dependency>
   <groupId>org.apache.hbase</groupId>
   <artifactId>hbase-client</artifactId>
   <version>1.2.4</version>
</dependency>

获取客户端/关闭资源

	private Connection connection;
    private Admin admin;
    @Before
    public void getAdmin() throws Exception {
        Configuration conf = new Configuration();
        conf.set("hbase.zookeeper.quorum", "192.168.100.1");
        conf.set("hbase.zookeeper.property.clientPort", "2181");
        connection = ConnectionFactory.createConnection(conf);
        admin = connection.getAdmin();
    }


    @After
    public void close() throws Exception {
        admin.close();
        connection.close();
    }

命名空间操作

	 @Test
    public void changeNameSpace()  throws Exception{
        NamespaceDescriptor namespaceDescriptor = NamespaceDescriptor.create("hadoop").removeConfiguration("baizhi").build();
        admin.modifyNamespace(namespaceDescriptor);
    }

	@Test
    public void deleteNameSpace() throws Exception{
        admin.deleteNamespace("hadoop");
    }

    @Test
    public void listNameSpace() throws Exception {
        NamespaceDescriptor[] namespaceDescriptors = admin.listNamespaceDescriptors();
        for (NamespaceDescriptor namespaceDescriptor : namespaceDescriptors) {
            System.out.println(namespaceDescriptor.getName());
        }
    }

表操作

 @Test
    public void createTable() throws Exception {
        /*
         * 将表的名字信息封装到TableName中
         * */
        TableName tableName = TableName.valueOf("baizhi:t_java");


        /*
         *
         * 创建描述表的对象 并提供表的名字
         * */
        HTableDescriptor tableDescriptor = new HTableDescriptor(tableName);


        /*
         * 描述列簇的对象  并指定列簇的名字
         * */
        HColumnDescriptor cf1 = new HColumnDescriptor("cf1");
        // 设置 最大可存的版本
        cf1.setMaxVersions(3);

        /*
         * 描述列簇的对象  并指定列簇的名字
         * */
        HColumnDescriptor cf2 = new HColumnDescriptor("cf2");
        // 设置 最大可存的版本
        cf2.setMaxVersions(3);

        // 在表中添加必要的属性：列簇
        tableDescriptor.addFamily(cf1);
        tableDescriptor.addFamily(cf2);


        /*
        * 使用admin对象创建表
        * */
        admin.createTable(tableDescriptor);

    }

    @Test
    public void deleteTable() throws Exception {
        TableName tableName = TableName.valueOf("baizhi:t_java");
        if (admin.tableExists(tableName)) {

            admin.disableTable(tableName);

            admin.deleteTable(tableName);
        }

    }

记录操作
put


    @Test
    public void putData() throws Exception {

        TableName tableName = TableName.valueOf("baizhi:t_user");

        Table table = connection.getTable(tableName);

        /*
         * 封装  一行 数据
         * */
        Put put = new Put("1".getBytes());
        /*
         * 参数列表  ：  列簇  列名  值
         * */
        put.addColumn("cf1".getBytes(), "name".getBytes(), "zhangsan".getBytes());
        put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
        put.addColumn("cf2".getBytes(), "age".getBytes(), "18".getBytes());
        put.addColumn("cf2".getBytes(), "salary".getBytes(), "1000".getBytes());


        table.put(put);
        table.close();

    }

批量插入

 @Test
    public void putManyData() throws Exception {

        TableName tableName = TableName.valueOf("baizhi:t_user");

        Table table = connection.getTable(tableName);

        /*
         * 封装  一行 数据
         * */
        Put put = new Put("2".getBytes());
        /*
         * 参数列表  ：  列簇  列名  值
         * */
        put.addColumn("cf1".getBytes(), "name".getBytes(), "lisi".getBytes());
        put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
        put.addColumn("cf2".getBytes(), "age".getBytes(), "20".getBytes());
        put.addColumn("cf2".getBytes(), "salary".getBytes(), "20000".getBytes());

        ArrayList<Put> puts = new ArrayList<Put>();
        puts.add(put);


        table.put(puts);
        table.close();

    }

@Test
    public void putManyData() throws Exception {

        TableName tableName = TableName.valueOf("baizhi:t_user");


        BufferedMutator bufferedMutator = connection.getBufferedMutator(tableName);


        /*
         * 封装  一行 数据
         * */
        Put put = new Put("2".getBytes());
        /*
         * 参数列表  ：  列簇  列名  值
         * */
        put.addColumn("cf1".getBytes(), "name".getBytes(), "ls".getBytes());
        put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
        put.addColumn("cf2".getBytes(), "age".getBytes(), "20".getBytes());
        put.addColumn("cf2".getBytes(), "salary".getBytes(), "20000".getBytes());

        ArrayList<Put> puts = new ArrayList<Put>();
        puts.add(put);

        bufferedMutator.mutate(puts);
        bufferedMutator.close();


    }

delete


    @Test
    public void deleteData() throws Exception {
        TableName tableName = TableName.valueOf("baizhi:t_user");

        Table table = connection.getTable(tableName);

        Delete delete = new Delete("2".getBytes());

        table.delete(delete);
        table.close();


    }

批量删除


    @Test
    public void deleteManyData() throws Exception {
        TableName tableName = TableName.valueOf("baizhi:t_user");


        Table table = connection.getTable(tableName);

        Delete delete = new Delete("1".getBytes());

        table.delete(delete);
        table.close();


    }

get

 @Test
    public void getData() throws Exception{

        Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));

        Get get = new Get("2".getBytes());

        Result result = table.get(get);

        /*
        * 列簇    列名
        * */
        byte[] name = result.getValue("cf1".getBytes(), "name".getBytes());
        byte[] pwd = result.getValue("cf1".getBytes(), "pwd".getBytes());
        byte[] age = result.getValue("cf2".getBytes(), "age".getBytes());
        byte[] salary = result.getValue("cf2".getBytes(), "salary".getBytes());

        System.out.println("名字为："+Bytes.toString(name)+", 密码为："+Bytes.toString(pwd)+"，年龄为："+Bytes.toString(age)+"，工资为："+Bytes.toString(salary));

    }

获取多个版本的数据

 @Test
    public void getManyData() throws Exception {

        Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));
        Get get = new Get("2".getBytes());
        get.setMaxVersions(3);
        get.addColumn("cf1".getBytes(), "name".getBytes());

        Result result = table.get(get);
        List<Cell> columnCells = result.getColumnCells("cf1".getBytes(), "name".getBytes());

        for (Cell columnCell : columnCells) {


            byte[] rowData = CellUtil.cloneRow(columnCell);
            byte[] cfData = CellUtil.cloneFamily(columnCell);
            byte[] qualifierData = CellUtil.cloneQualifier(columnCell);
            byte[] data = CellUtil.cloneValue(columnCell);
            System.out.println("行健为：" + Bytes.toString(rowData) + ", 列簇为：" + Bytes.toString(cfData) + "，列名为：" + Bytes.toString(qualifierData) + "，名字为：" + Bytes.toString(data));

        }
    }

scan

@Test
    public void scanData() throws Exception {


        Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));

        Scan scan = new Scan();

        // scan.addFamily("cf1".getBytes());
        //scan.addColumn("cf1".getBytes(),"name".getBytes());

        PrefixFilter prefixFilter1 = new PrefixFilter("1".getBytes());
        PrefixFilter prefixFilter2 = new PrefixFilter("2".getBytes());

        FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE, prefixFilter1, prefixFilter2);


        scan.setFilter(filterList);

        ResultScanner scanner = table.getScanner(scan);
        for (Result result : scanner) {
            System.out.println("------------------");
            byte[] name = result.getValue("cf1".getBytes(), "name".getBytes());
            byte[] pwd = result.getValue("cf1".getBytes(), "pwd".getBytes());
            byte[] age = result.getValue("cf2".getBytes(), "age".getBytes());
            byte[] salary = result.getValue("cf2".getBytes(), "salary".getBytes());

            System.out.println("名字为：" + Bytes.toString(name) + ", 密码为：" + Bytes.toString(pwd) + "，年龄为：" + Bytes.toString(age) + "，工资为：" + Bytes.toString(salary));


        }

    scanner.close();
        table.close();
    }