使用filter(过滤器)按照条件查询hbase

本文详细介绍了HBase中的各种过滤器及其用法,包括FilterList、SingleColumnValueFilter、ColumnPrefixFilter、MultipleColumnPrefixFilter、RowFilter等。通过具体示例展示了如何组合使用这些过滤器进行高效的数据查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.1. hbase过滤器

1.1.1. FilterList

FilterList 代表一个过滤器列表,可以添加多个过滤器进行查询,多个过滤器之间的关系有:

与关系(符合所有):FilterList.Operator.MUST_PASS_ALL  

或关系(符合任一):FilterList.Operator.MUST_PASS_ONE

 

使用方法:

FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE);   

Scan s1 = new Scan();  

 filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”),  Bytes.toBytes(“c1”),  CompareOp.EQUAL,Bytes.toBytes(“v1”) )  );  

filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”),  Bytes.toBytes(“c2”),  CompareOp.EQUAL,Bytes.toBytes(“v2”) )  );  

 // 添加下面这一行后,则只返回指定的cell,同一行中的其他cell不返回  

 s1.addColumn(Bytes.toBytes(“f1”), Bytes.toBytes(“c1”));  

 s1.setFilter(filterList);  //设置filter

 ResultScanner ResultScannerFilterList = table.getScanner(s1);  //返回结果列表

1.1.2. 过滤器的种类

过滤器的种类:

列植过滤器SingleColumnValueFilter

      过滤列植的相等、不等、范围等

列名前缀过滤器—ColumnPrefixFilter

      过滤指定前缀的列名

多个列名前缀过滤器MultipleColumnPrefixFilter

       过滤多个指定前缀的列名

rowKey过滤器—RowFilter

      通过正则,过滤rowKey值。

1.1.3. 列植过滤器—SingleColumnValueFilter

SingleColumnValueFilter 列值判断

相等 (CompareOp.EQUAL ),

不等(CompareOp.NOT_EQUAL),

范围 (e.g., CompareOp.GREATER)…………

下面示例检查列值和字符串'values' 相等...

SingleColumnValueFilter f = new  SingleColumnValueFilter(

Bytes.toBytes("cFamily")              Bytes.toBytes("column"), CompareFilter.CompareOp.EQUAL,

        Bytes.toBytes("values"));

s1.setFilter(f);

注意:如果过滤器过滤的列在数据表中有的行中不存在,那么这个过滤器对此行无法过滤。

1.1.4. 列名前缀过滤器—ColumnPrefixFilter

过滤器ColumnPrefixFilter

ColumnPrefixFilter 用于指定列名前缀值相等

ColumnPrefixFilter f = new ColumnPrefixFilter(Bytes.toBytes("values"));

s1.setFilter(f);

1.1.5. 多个列值前缀过滤器—MultipleColumnPrefixFilter

MultipleColumnPrefixFilter ColumnPrefixFilter 行为差不多,但可以指定多个前缀

byte[][] prefixes = new byte[][] {Bytes.toBytes("value1"),Bytes.toBytes("value2")};

Filter f = new MultipleColumnPrefixFilter(prefixes);

s1.setFilter(f);

1.1.6. rowKey过滤器—RowFilter

RowFilter rowkey过滤器

通常根据rowkey来指定范围时,使用scan扫描器的StartRowStopRow方法比较好。

Filter f = new RowFilter(CompareFilter.CompareOp.EQUAL, new RegexStringComparator("^1234")); //匹配以1234开头的rowkey

s1.setFilter(f);

package hbase.test;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.filter.*;
import org.apache.hadoop.hbase.util.Bytes;
import org.junit.Test;

import java.text.DecimalFormat;
import java.util.Iterator;
import java.util.List;

/**
 * 测试过滤器
 */
public class TestFilter {
	/**
	 * rowkey过滤
	 */
	@Test
	public void testRowFilter() throws Exception {
		Configuration conf = HBaseConfiguration.create();
		Connection conn = ConnectionFactory.createConnection(conf);
		Table t = conn.getTable(TableName.valueOf("ns1:t2"));
		Scan scan = new Scan();
//		where rowkey <= row088
//		RowFilter filter = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,new BinaryComparator(Bytes.toBytes("row088")));
		//where rowkey like '%88%'
//		RowFilter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator("88"));

		//while rowkey like '%88' ;
		RowFilter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator("88$"));
		scan.setFilter(filter);

		ResultScanner rs = t.getScanner(scan) ;
		Iterator<Result> it = rs.iterator();
		while(it.hasNext()){
			Result r = it.next();
			outResult(r);
		}
		rs.close();
	}

	/**
	 * family过滤
	 */
	@Test
	public void testFamilyFilter() throws Exception {
		Configuration conf = HBaseConfiguration.create();
		Connection conn = ConnectionFactory.createConnection(conf);
		Table t = conn.getTable(TableName.valueOf("ns1:t2"));
		Scan scan = new Scan();
		//以f开头的列族进行过滤
		FamilyFilter filter = new FamilyFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator("^f"));
		scan.setFilter(filter);

		ResultScanner rs = t.getScanner(scan) ;
		Iterator<Result> it = rs.iterator();
		while(it.hasNext()){
			Result r = it.next();
			outResult(r);
		}
		rs.close();
	}

	/**
	 * col过滤
	 */
	@Test
	public void testQualifierFilter() throws Exception {
		Configuration conf = HBaseConfiguration.create();
		Connection conn = ConnectionFactory.createConnection(conf);
		Table t = conn.getTable(TableName.valueOf("ns1:t2"));
		Scan scan = new Scan();
		//以f开头的列族进行过滤
		QualifierFilter filter = new QualifierFilter(QualifierFilter.CompareOp.EQUAL,new RegexStringComparator("^name$"));
		scan.setFilter(filter);

		ResultScanner rs = t.getScanner(scan) ;
		Iterator<Result> it = rs.iterator();
		while(it.hasNext()){
			Result r = it.next();
			outResult(r);
		}
		rs.close();
	}

	/**
	 * 组合过滤
	 */
	@Test
	public void testFilterList() throws Exception {
		Configuration conf = HBaseConfiguration.create();
		Connection conn = ConnectionFactory.createConnection(conf);
		Table t = conn.getTable(TableName.valueOf("ns1:t2"));
		Scan scan = new Scan();
		//MUST_PASS_ALL : and
		//MUST_PASS_ONe :Or

		FilterList filter = new FilterList(FilterList.Operator.MUST_PASS_ALL) ;
		ValueFilter f1 = new ValueFilter(QualifierFilter.CompareOp.EQUAL,new RegexStringComparator("m8"));
		filter.addFilter(f1);
		RowFilter f2 = new RowFilter(CompareFilter.CompareOp.GREATER,new BinaryComparator(Bytes.toBytes("row8"))) ;
		filter.addFilter(f2);
		scan.setFilter(filter);

		ResultScanner rs = t.getScanner(scan) ;
		Iterator<Result> it = rs.iterator();
		while(it.hasNext()){
			Result r = it.next();
			outResult(r);
		}
		rs.close();
	}
	/**
	 * value过滤
	 */
	@Test
	public void testValueFilter() throws Exception {
		Configuration conf = HBaseConfiguration.create();
		Connection conn = ConnectionFactory.createConnection(conf);
		Table t = conn.getTable(TableName.valueOf("ns1:t2"));
		Scan scan = new Scan();
		//以f开头的列族进行过滤
		ValueFilter filter = new ValueFilter(QualifierFilter.CompareOp.EQUAL,new RegexStringComparator("m8"));
		scan.setFilter(filter);

		ResultScanner rs = t.getScanner(scan) ;
		Iterator<Result> it = rs.iterator();
		while(it.hasNext()){
			Result r = it.next();
			outResult(r);
		}
		rs.close();
	}



	private void outResult(Result r) {
		System.out.println("=========================");
		List<Cell> cells = r.listCells();
		for (Cell cell : cells) {
			String rowkey = Bytes.toString(CellUtil.cloneRow(cell));
			String f = Bytes.toString(CellUtil.cloneFamily(cell));
			String col = Bytes.toString(CellUtil.cloneQualifier(cell));
			long ts = cell.getTimestamp();
			String value = Bytes.toString(CellUtil.cloneValue(cell));
			System.out.println(rowkey + "/" + f + ":" + col + "/" + ts + "=" + value);
		}
	}


<think>好的,用户想在HBase中根据特定条件统计满足条件数据行数。首先,我需要回忆HBase的基本结构和查询方式。HBase作为数据库,没有内置的SQL查询功能,所以直接使用类似SQL的WHERE子句可能不行。 用户的问题和之前提到的统计行数有关,但这次加上了条件过滤。之前的方法如count命令、RowCounter工具、协处理器等,可能都需要调整才能满足条件查询的需求。 首先,考虑使用HBase Shell的count命令。不过默认的count是全表扫描,不带过滤条件。但记得HBase的count命令其实可以结合过滤器,比如使用SingleColumnValueFilter来指定条件。例如,可以创建一个过滤器,然后通过count命令应用它。不过需要注意,这种方法可能效率不高,尤其是数据量大时,因为需要扫描整个表。 其次,MapReduce任务。HBase提供了org.apache.hadoop.hbase.mapreduce.RowCounter类,但默认也是统计所有行。用户需要自定义MapReduce作业,在Mapper阶段添加过滤逻辑,只处理符合条件的行。这需要对HBase的MapReduce API比较熟悉,比如设置Scan对象时添加Filter,然后在自定义的Reducer中统计数量。 另外,协处理器(Coprocessor)也是一个选择。特别是使用AggregationClient,结合RegionObserver和Endpoint协处理器,可以在服务端进行条件过滤和统计,减少数据传输,提高效率。但配置协处理器可能比较复杂,需要修改表属性并确保集群支持。 还有,结合Hive或Phoenix等外部工具。如果用户已经集成了这些工具,可以通过创建外部表,使用SQL语句进行条件统计。例如,Phoenix支持SQL查询,可以写SELECT COUNT(*) WHERE ...这样的语句,底层会转换为HBase的扫描操作,可能更直观。 需要提醒用户注意性能问题。无论哪种方法,条件统计都可能需要全表扫描,尤其是没有合适的rowkey设计时。如果条件涉及的没有索引,性能会较差。建议用户考虑rowkey的设计,或者使用二级索引(如Phoenix的二级索引)来优化查询速度。 最后,可能还需要考虑数据的一致性和扫描的缓存设置。例如,在MapReduce任务中调整CACHE大小,或者在count命令中使用INTERVAL和CACHE参数来平衡内存使用和性能。 总结下来,用户有几种方法可选,各有优缺点。需要根据具体情况选择最合适的方式,比如数据量大小、是否允许影响线上性能、对延迟的容忍度等。如果用户需要实时性不高但高效统计,协处理器可能合适;如果临时查询数据量小,Shell命令加过滤器可行;如果习惯SQL,Phoenix是好的选择。</think>在HBase中根据条件统计数据行数,可以通过以下方法实现: ### 一、使用HBase Shell过滤器统计 1. 通过`count`命令结合过滤器: ```shell hbase> count 'table_name', {FILTER => "SingleColumnValueFilter('cf', 'col', >=, 'binary:value')"} ``` - 支持所有HBase内置过滤器类型(如`ValueFilter`、`PrefixFilter`等) - 需要全表扫描,适合小规模数据[^2][^3] - 可通过调整CACHE参数优化性能: ```shell hbase> count 'table', {CACHE => 1000, FILTER => "..."} ``` ### 二、MapReduce自定义统计 1. 编写自定义MapReduce作业: ```java public class ConditionalCounter extends TableMapper<ImmutableBytesWritable, Result> { protected void map(ImmutableBytesWritable key, Result value, Context context) { if (checkCondition(value)) { // 自定义条件判断 context.getCounter("STATS", "QUALIFIED_ROWS").increment(1); } } } ``` - 在`configure`方法中设置带过滤器的Scan对象: ```java Scan scan = new Scan(); scan.setFilter(new SingleColumnValueFilter(...)); ``` ### 三、使用协处理器(推荐) 1. 启用AggregationClient: ```shell hbase> alter 'table_name', METHOD => 'table_att', 'coprocessor' => '|org.apache.hadoop.hbase.mapreduce.AggregationImplementation|' ``` 2. 执行统计命令: ```shell hbase org.apache.hadoop.hbase.mapreduce.AggregationClient --table table_name --aggregation "row_count" --scan-filter "SingleColumnValueFilter('cf','col',=,'binary:value')" ``` - 服务端计算,效率最高[^5] ### 四、集成SQL引擎 1. 使用Apache Phoenix: ```sql SELECT COUNT(*) FROM "table_name" WHERE "col" > value; ``` - 自动转换为HBase扫描操作 - 支持二级索引优化[^4] ### 性能优化建议: 1. 设置合理缓存: $$ CACHE_{size} = \frac{RegionServer_{heap} \times 0.4}{AvgRowSize} $$ 2. 使用布隆过滤器: ```shell create 'table', {NAME => 'cf', BLOOMFILTER => 'ROWCOL'} ``` 3. 按时间范围过滤时,建议rowkey包含时间戳前缀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值