HBase客户端API-Batch操作

本文介绍如何使用HBase的Table.batch()方法进行批量数据插入,通过示例代码展示创建Put操作集合并执行批量更新的过程。

上一篇博客说了使用 HBase 的客户端 API 来操作操作 HBase 表中记录,今天我们看看怎样通过 API 来批量操作表中的数据。

安装上一篇博客中的方法在 HBase 中如果更新(添加/修改/删除)记录,是按行一条一条更新的,这种方法在处理大量更新操作时,性能比较差,还好在 HBase 中提供了以 Batch 方式来批量更新数据表的方法。下面就看看怎样通过 Table.batch() 方法来批量更新

要使用 Table 的 batch 模式批量更新,我们需要创建一个Put操作的集合,同时提供和一个和Put操作集合长度相等的Object对象数组,用来存放操作结果。然后再调用 “table.batch(actions, results);” 即可,看下面代码片段。

    private void batch() throws IOException {
        // 创建表
        ...

        Table table = connection.getTable(TableName.valueOf(TABLE_NAME));

        List<Row> actions = new ArrayList<Row>();
        for (int i = 0; i < 10000; i++) {
            Put put = new Put(Bytes.toBytes("row_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_BASE), Bytes.toBytes(COLUMN_USERNAME), Bytes.toBytes("user_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_BASE), Bytes.toBytes(COLUMN_PASSWORD), Bytes.toBytes("password_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_ADDRESS), Bytes.toBytes(COLUMN_HOME), Bytes.toBytes("home_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_ADDRESS), Bytes.toBytes(COLUMN_OFFICE), Bytes.toBytes("office_" + i));
            actions.add(put);
        }
        Object[] results = new Object[actions.size()];

        try {
            table.batch(actions, results);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

        Scan scan = new Scan();
        ResultScanner resultScanner = table.getScanner(scan);
        Iterator<Result> it = resultScanner.iterator();
        while (it.hasNext()) {
            Result result = it.next();
            printRow(result);
        }

        table.close();

        // 删除表
        ...
    }

完整例子代码如下

package my.hbasestudy;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

public class TestBatch {

    private static final String TABLE_NAME = "user";

    private static final String COLUMN_FAMILY_BASE = "base";
    private static final String COLUMN_FAMILY_ADDRESS = "address";

    private static final String COLUMN_USERNAME = "username";
    private static final String COLUMN_PASSWORD = "password";
    private static final String COLUMN_HOME = "home";
    private static final String COLUMN_OFFICE = "office";

    private Connection connection;

    public static void main(String[] args) throws Exception {
        Configuration config = HBaseConfiguration.create();
        Connection connection = ConnectionFactory.createConnection(config);

        long t1 = System.currentTimeMillis();

        TestBatch t = new TestBatch(connection);
        t.batch();

        long t2 = System.currentTimeMillis();
        System.out.println("Time: " + (t2 - t1));

        connection.close();
    }

    public TestBatch(Connection connection) {
        this.connection = connection;
    }

    private void batch() throws IOException {
        createTable();

        Table table = connection.getTable(TableName.valueOf(TABLE_NAME));

        List<Row> actions = new ArrayList<Row>();
        for (int i = 0; i < 10000; i++) {
            Put put = new Put(Bytes.toBytes("row_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_BASE), Bytes.toBytes(COLUMN_USERNAME), Bytes.toBytes("user_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_BASE), Bytes.toBytes(COLUMN_PASSWORD), Bytes.toBytes("password_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_ADDRESS), Bytes.toBytes(COLUMN_HOME), Bytes.toBytes("home_" + i));
            put.addColumn(Bytes.toBytes(COLUMN_FAMILY_ADDRESS), Bytes.toBytes(COLUMN_OFFICE), Bytes.toBytes("office_" + i));
            actions.add(put);
        }
        Object[] results = new Object[actions.size()];

        try {
            table.batch(actions, results);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

        Scan scan = new Scan();
        ResultScanner resultScanner = table.getScanner(scan);
        Iterator<Result> it = resultScanner.iterator();
        while (it.hasNext()) {
            Result result = it.next();
            printRow(result);
        }

        table.close();

        deleteTable();
    }

    private void createTable() throws IOException {
        Admin admin = connection.getAdmin();

        try {
            TableDescriptor tableDesc = TableDescriptorBuilder.newBuilder(TableName.valueOf(TABLE_NAME))
                    .addColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(COLUMN_FAMILY_BASE)).build())
                    .addColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(COLUMN_FAMILY_ADDRESS)).build())
                    .build();
            admin.createTable(tableDesc);
        } finally {
            admin.close();
        }
    }

    private void deleteTable() throws IOException {
        Admin admin = connection.getAdmin();

        try {
            admin.disableTable(TableName.valueOf(TABLE_NAME));
            admin.deleteTable(TableName.valueOf(TABLE_NAME));
        } finally {
            admin.close();
        }
    }

    private void printRow(Result result) {
        if (Bytes.toString(result.getRow()) != null) {
            StringBuilder sb = new StringBuilder();
            sb.append(Bytes.toString(result.getRow()));
            sb.append("[");
            sb.append("base:username=" + Bytes.toString(result.getValue(Bytes.toBytes("base"), Bytes.toBytes("username"))));
            sb.append(", base:password=" + Bytes.toString(result.getValue(Bytes.toBytes("base"), Bytes.toBytes("password"))));
            sb.append(", address:home=" + Bytes.toString(result.getValue(Bytes.toBytes("address"), Bytes.toBytes("home"))));
            sb.append(", address:office=" + Bytes.toString(result.getValue(Bytes.toBytes("address"), Bytes.toBytes("office"))));
            sb.append("]");
            System.out.println(sb.toString());
        }
    }
}
### 关于HBase Java API批量操作的开发指南 HBase 提供了一套完整的 Java API 来支持各种数据操作,其中包括批量写入、删除和获取等功能。以下是有关如何使用 HBase Java API 进行批量操作的具体说明以及示例代码。 #### 1. 批量写入 (Batch Put) 通过 `Put` 对象可以向 HBase 表中插入单条记录,而当需要执行大量写入操作时,则可以通过 `BufferedMutator` 或者直接利用 `List<Put>` 配合 `Table.put(List<Put> puts)` 方法实现批量写入功能[^1]。 ```java import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.Connection; import org.apache.hadoop.hbase.client.ConnectionFactory; import org.apache.hadoop.hbase.client.Table; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException; import java.util.ArrayList; import java.util.List; public class BatchWriteExample { public static void main(String[] args) throws IOException { Connection connection = null; try { // 创建连接配置 Configuration config = HBaseConfiguration.create(); connection = ConnectionFactory.createConnection(config); // 获取目标表实例 Table table = connection.getTable(TableName.valueOf("my_table")); List<Put> putList = new ArrayList<>(); // 构造多个Put对象并加入列表 byte[] rowKey1 = Bytes.toBytes("row_key_001"); byte[] familyName = Bytes.toBytes("cf"); byte[] qualifier = Bytes.toBytes("column_name"); Put put1 = new Put(rowKey1); put1.addColumn(familyName, qualifier, Bytes.toBytes("value_for_rowkey_001")); putList.add(put1); byte[] rowKey2 = Bytes.toBytes("row_key_002"); Put put2 = new Put(rowKey2); put2.addColumn(familyName, qualifier, Bytes.toBytes("value_for_rowkey_002")); putList.add(put2); // 使用batch方式提交所有Put请求 table.put(putList); } finally { if (connection != null && !connection.isClosed()) { connection.close(); } } } } ``` #### 2. 批量删除 (Batch Delete) 类似于批量写入的操作模式,在进行大批量删除时也可以借助 `Delete` 类型的对象集合完成任务。这里同样推荐采用 `List<Delete>` 结构配合 `Table.delete()` 函数调用来简化流程管理[^1]。 ```java import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException; import java.util.ArrayList; import java.util.List; public class BatchDeleteExample { public static void main(String[] args)throws Exception{ Configuration conf=HBaseConfiguration.create(); try(Connection conn=ConnectionFactory.createConnection(conf)){ Table tbl=conn.getTable(TableName.valueOf("testtable")); List<Delete> dels=new ArrayList<>(); Delete d1=new Delete(Bytes.toBytes("r1"));dels.add(d1); Delete d2=new Delete(Bytes.toBytes("r2"));dels.add(d2); tbl.delete(dels); } } } ``` 以上两个例子分别展示了如何基于Java客户端库高效地实施针对HBase数据库的大规模修改动作——无论是新增还是移除记录均能显著提升效率与稳定性[^2]。 #### 注意事项 - 在实际应用过程中需注意合理控制每次批处理的数量大小以免造成内存溢出等问题发生。 - 同时也要考虑到网络传输延迟等因素可能带来的影响从而调整相应的参数设定比如超时时间等以保障整个系统的健壮性和可靠性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值