HBase的缓存和批量处理

本文介绍了HBase的缓存机制,包括面向行级操作的扫描器缓存,强调了开启缓存对提高效率的重要性。同时,讨论了批量处理在面对大量列数据时的应用,如何设定获取列的数量以优化性能。最后,通过一个综合练习展示了如何在实践中结合使用缓存和批量处理,以减少RPC请求次数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、cache,面向行级操作,只影响效率!

(1)每一个next()调用都会为每行数据生成一个单独的RPC请求,当单元格数据小时,这样做的性能不会很好,我们可以一次RPC请求获取多行数据,这样的方法由扫描器缓存实现,默认情况下,该缓存是关闭的。编程时可在两个层面打开扫描器缓存:表层面和扫描层面。

(2)代码

public void TestCache() throws Exception{
    //初始化HBase的conf
    Configuration conf = HBaseConfiguration.create();
    //通过连接工厂创建连接
    Connection conn = ConnectionFactory.createConnection(conf);
    //通过连接获得表对象
    Table table = conn.getTable(TableName.valueOf("test:t1"));
    //使用scan方法从表中得到所有行的数据
    Scan scan = new Scan();
    //开启缓存,并设置缓存的大小,一次RPC请求获取10行数据
    scan.setCaching(10);
    System.out.println(scan.getCaching());
    ResultScanner rs = table.getScanner(scan);
    //打印显示结果行的所有细胞
    Iterator<Result> it = rs.iterator();
    while(it.hasNext()) {
        List<Cell> cells = it.next().listCells();
        System.out.println("===========================");
        for (Cell cell : cells) {
            String row = Bytes.toString(CellUtil.cloneRow(cell));
            String cf = Bytes.toString(CellUtil.cloneFamily(cell));
            String cq = Bytes.toString(CellUtil.cloneQualifier(cell));
            String val = Bytes.toString(CellUtil.cloneValue(cell));
            System.out.println(row + "/" + cf + "/" + cq + "/" + val);
        }
    }
    //关闭资源
    table.close();
    conn.close();
}

2、Batch,面向列级操作

(1)批量处理,当有一列或几列的数据量非常大时,用户可以设定每次调用next()方法得到多少列(以行为单位)

(2)代码

public void TestBatch() throws Exception{
    //初始化HBase的conf
    Configuration conf = HBaseConfiguration.create();
    //通过连接工厂创建连接
    Connection conn = ConnectionFactory.createConnection(conf);
    //通过连接获得表对象
    Table table = conn.getTable(TableName.valueOf("test:t1"));
    //使用scan方法从表中得到所有行的数据
    Scan scan = new Scan();
    //开启缓存,并设置缓存的大小,一次RPC请求获取10行数据
    scan.setCaching(10);
    //设置一次next()返回的列数
    scan.setBatch(3);
    System.out.println(scan.getCaching());
    ResultScanner rs = table.getScanner(scan);
    //打印显示结果行的所有细胞
    Iterator<Result> it = rs.iterator();
    while(it.hasNext()) {
        List<Cell> cells = it.next().listCells();
        System.out.println("===========================");
        for (Cell cell : cells) {
            String row = Bytes.toString(CellUtil.cloneRow(cell));
            String cf = Bytes.toString(CellUtil.cloneFamily(cell));
            String cq = Bytes.toString(CellUtil.cloneQualifier(cell));
            String val = Bytes.toString(CellUtil.cloneValue(cell));
            System.out.println(row + "/" + cf + "/" + cq + "/" + val);
        }
    }
    //关闭资源
    table.close();
    conn.close();
}

3、综合练习

建立一张有两个列族的表,添加十行数据,每行的每个列族下有十列(每列只有一个版本),即共有200个单元格

缓存大小批量处理result个数RPC次数说明
11200201每个列都作为一个Result实例返回,最后还多一个RPC确认扫描完成
20012002每个Result实例包含一列的值,他们都被一次RPC请求取回(加一次完成检查)
2102011每个Result实例包含十列的值,需要十次RPC请求取回(加一次完成检查)
5100103每个Result实例包含二十列的值,需要两次RPC请求取回(加一次完成检查)
520103每个Result实例包含二十列的值,需要两次RPC请求取回(加一次完成检查)
1010203每个Result实例包含十列的值,需要两次RPC请求取回(加一次完成检查)

RPC请求次数=(行数 x 列数) / min(每行列数,批量大小) / 缓存大小

 

好的,下面我来为你介绍一下 HBase 的表扫描、扫描缓存批量处理实战。 HBase 是一种分布式的、面向列的 NoSQL 数据库,它可以处理海量数据,并提供了高性能的数据读写能力。在 HBase 中,表扫描是一种非常常见的操作,而扫描缓存批量处理则可以提高扫描的效率。 1. 表扫描 表扫描是指遍历表中所有的行,将符合条件的数据返回给客户端。在 HBase 中,表扫描可以通过 Scan 类来实现。下面是一个简单的示例代码: ``` Configuration conf = HBaseConfiguration.create(); HTable table = new HTable(conf, "my_table"); Scan scan = new Scan(); ResultScanner scanner = table.getScanner(scan); for (Result result : scanner) { System.out.println(result); } scanner.close(); table.close(); ``` 上面的代码中,我们首先创建了一个 HBase 配置对象一个 HTable 对象,然后创建了一个 Scan 对象,并调用 getScanner() 方法来获取一个 ResultScanner 对象。最后,我们遍历 ResultScanner 对象,将每一行数据都打印出来。 2. 扫描缓存 HBase 的扫描缓存可以提高表扫描的效率。在 HBase 中,默认情况下,每次扫描都会从 HDFS 中读取数据块,并将其缓存到本地的缓存中。如果有多次扫描请求,这些数据块就会被重复读取缓存,造成不必要的性能浪费。 为了避免这种情况,HBase 提供了扫描缓存机制。通过设置表的 SCAN_CACHEDROWS 参数,可以指定在扫描过程中要缓存的行数。例如,下面的代码将会缓存 100 行数据: ``` Configuration conf = HBaseConfiguration.create(); HTable table = new HTable(conf, "my_table"); Scan scan = new Scan(); scan.setCaching(100); ResultScanner scanner = table.getScanner(scan); for (Result result : scanner) { System.out.println(result); } scanner.close(); table.close(); ``` 3. 批量处理 HBase批量处理机制可以将多个操作打包成一个请求,从而减少网络开销。在 HBase 中,批量处理可以通过 HTable 的 batch() 方法来实现。下面是一个简单的示例代码: ``` Configuration conf = HBaseConfiguration.create(); HTable table = new HTable(conf, "my_table"); List<Put> puts = new ArrayList<Put>(); puts.add(new Put(Bytes.toBytes("row1")).addColumn(Bytes.toBytes("cf"), Bytes.toBytes("qualifier"), Bytes.toBytes("value"))); puts.add(new Put(Bytes.toBytes("row2")).addColumn(Bytes.toBytes("cf"), Bytes.toBytes("qualifier"), Bytes.toBytes("value"))); table.batch(puts); table.close(); ``` 上面的代码中,我们首先创建了一个 HBase 配置对象一个 HTable 对象,然后创建了一个 List 对象,将两个 Put 对象添加到 List 中。最后,我们调用了 HTable 的 batch() 方法,将 List 中的 Put 对象打包成一个请求,一次性发送给 HBase,从而减少了网络开销。 以上就是 HBase 的表扫描、扫描缓存批量处理实战介绍,希望能够对你有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值