hbase过滤查询的两种方式

本文介绍如何在HBase表中通过设置Filter来检索具有相同前缀的记录,包括在hbaseshell和Java客户端实现的例子。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果你在hbase表中存在一些特征相同的记录,实际上就可以通过设置Filter的方式进行检索过滤。

比如这个特征是前缀相同。

ROW                                         COLUMN+CELL                                                                                 003_8618722111005_460014004369494                                   column=info:sex, timestamp=1318853623294, value=male                    
  Jerry1                                       column=info:sex, timestamp=1318917602868, value=male                003_8618722111005_460014004569494                             column=info:sex, timestamp=1318917789851, value=male

可以发现这三条记录都是以Jerry开头的row key.

那么我们如何检索呢。很简单。

如果是在hbase shell中

scan ‘scores’, {FILTER => org.apache.hadoop.hbase.filter.PrefixFilter.new(org.apache.hadoop.hbase.util.Bytes.toBytes(‘003_8618722111005_’))}

或者

scan 'MsisdnImsi',{STARTROW=>"003_8618722111005_460014004369494",STOPROW=>"003_8618722111005_9"}

如果是java 客户端

<pre name="code" class="java">public void scaneByPrefixFilter(String tablename, String rowPrifix) {
   try {
       HTable table = new HTable(conf, tablename);
       Scan s = new Scan();
       s.setFilter(new PrefixFilter(rowPrifix.getBytes()));
       ResultScanner rs = table.getScanner(s);
       for (Result r : rs) {
          KeyValue[] kv = r.raw();
          for (int i = 0; i < kv.length; i++) {
              System.out.print(new String(kv[i].getRow()) + "  ");
              System.out.print(new String(kv[i].getFamily()) + ":");
              System.out.print(new String(kv[i].getQualifier()) + "  ");
              System.out.print(kv[i].getTimestamp() + "  ");
              System.out.println(new String(kv[i].getValue()));
          }
      }
   } catch (IOException e) {
         e.printStackTrace();
   }
}


或者:
 <pre name="code" class="java">public static void getInfo(String str) {  
//根据分区规则 取模   
        long mod = Long.valueOf(str) % DataType.getAsInt(6);
        String tmp = "";
        if (mod > 9)
        {
            tmp = "0" + mod;
        }
        else
        {
            tmp = "00" + mod;
        }
	//参考scan 'MsisdnImsi',{STARTROW=>"003_8618722111005_460014004369494",STOPROW=>"003_8618722111005_9"}</span>
          String startRow = tmp + "_" + str;
        String stopRow = tmp + "_" + str + "_9";
        
        logger.info("----------------------   startRow : "+startRow+" ---------------------");
        logger.info("----------------------   stopRow : "+stopRow+" ---------------------");
        
        ResultScanner scanner = null;
        try
        {
            // 从表池中取出HBASE表对象
            HTableInterface table = getTable("testtable");
            byte[] family   = Bytes.toBytes("F");
            byte[] column   = Bytes.toBytes("A");
            // 获取筛选对象
             Scan scan = new Scan();
             scan.setStartRow(getBytes(startRow));
             scan.setStopRow(getBytes(stopRow));
            scan.addColumn(family, column);
            // 给筛选对象放入过滤器(true标识分页,具体方法在下面)
            scan.setCacheBlocks(false);
            scanner = table.getScanner(scan);
            // 遍历扫描器对象, 并将需要查询出来的数据row key取出
            for (Result result : scanner) {
                for (KeyValue kv : result.list()) {
                    String key = Bytes.toStringBinary(kv.getRow());
                    String value = HbaseVO.deserialize(kv.getValue()).insertTime;
   //do something
                }
            }
        }
        catch (Exception e)
        {
            e.printStackTrace();
            logger.error("查询hbase异常! ",e);
        }
        finally
        {
            closeScanner(scanner);
        }
    }





                
### HBase 过滤器概述 HBase 提供了一种强大的机制——过滤器(Filter),用于在服务端对数据进行筛选,从而减少不必要的网络传输和客户端处理压力[^4]。通过使用 HBase过滤器语言,用户能够灵活地定义复杂的过滤逻辑并将其应用到查询中[^1]。 #### 常见的 HBase 过滤器分类 HBase 中的过滤器主要分为两类:比较过滤器和专用过滤器[^5]。以下是具体介绍: ##### 1. 比较过滤器 比较过滤器基于指定字段的内容与预设条件之间的关系来进行匹配。这些过滤器支持多种比较运算符以及不同的 Comparator 类型。常见的比较过滤器包括但不限于 BinaryComparator、BinaryPrefixComparator 和 RegexStringComparator 等[^3]。 - **BinaryComparator**: 对字节序列进行精确匹配。 - **BinaryPrefixComparator**: 匹配字节序列的前缀部分。 - **RegexStringComparator**: 利用正则表达式实现字符串模式匹配。 ##### 2. 专用过滤器 专用过滤器针对某些特殊场景设计,功能更加聚焦于具体的业务需求。例如 SingleColumnValueFilter 是一种典型的专用过滤器,它可以根据某一列的具体值决定是否保留该行记录[^2]。 #### 示例代码展示 下面提供几个典型过滤器的应用实例以帮助理解其实际用途。 ```java // 导入必要的包 import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.hbase.filter.*; public class HBaseFilterExample { public static void main(String[] args) throws Exception { // 创建表连接对象 Connection connection = ConnectionFactory.createConnection(config); Table table = connection.getTable(TableName.valueOf("my_table")); Scan scan = new Scan(); // 添加 RowKey 前缀过滤器 PrefixFilter prefixFilter = new PrefixFilter(Bytes.toBytes("prefix_")); scan.setFilter(prefixFilter); // 或者添加单列值过滤器 SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter( Bytes.toBytes("cf"), // 列族名 Bytes.toBytes("qualifier"), // 列限定符 CompareOperator.EQUAL, // 比较操作符 new BinaryComparator(Bytes.toBytes("value"))); // 预期值 singleColumnValueFilter.setFilterIfMissing(true); // 如果缺少此列,则丢弃整行 scan.setFilter(singleColumnValueFilter); ResultScanner results = table.getScanner(scan); for (Result result : results) { System.out.println(result); } results.close(); table.close(); connection.close(); } } ``` 上述代码片段展示了如何利用 `PrefixFilter` 实现按 RowKey 前缀查找的功能;同时也演示了设置 `SingleColumnValueFilter` 来依据某列的实际取值进一步缩小检索范围的方法。 ### 总结说明 通过对 HBase 过滤器的学习可以看出,在大数据环境下合理运用此类工具不仅可以显著提升性能表现还能简化开发流程。无论是简单的 row key 范围界定还是复杂多样的属性组合约束都可以借助相应的内置组件轻松达成目标。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值