HBase二级索引Solr

最新推荐文章于 2024-01-25 01:55:24 发布

原创最新推荐文章于 2024-01-25 01:55:24 发布 · 191 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#solr #hbase #lucene

大数据专栏收录该内容

80 篇文章

订阅专栏

本文介绍了在CDH环境下，如何利用Solr构建HBase的二级索引。在处理大量数据时，由于HBase的memstore刷新机制可能导致长时间锁住memstore，影响性能。通过调整hbase.hregion.memstore.block.multiplier和hbase.server.thread.wakefrequency配置，可以减少这种延迟，提高系统响应速度。

HBase二级索引Solr：

CDH使用Solr实现HBase二级索引 - kekukekro - 博客园

基于CDH的solr+Key-Value Store Indexer+hbase二级索引框架构建（一）_yzh865318761的博客-优快云博客

hadoop --config /etc/hadoop/conf jar /opt/cloudera/parcels/CDH/lib/hbase-solr/tools/hbase-indexer-mr-1.5-cdh5.8.5-job.jar --conf /etc/hbase/conf/hbase-site.xml -D 'mapred.child.java.opts=-Xmx 1000m' --hbase-indexer-file /opt/cdhsolr/cctb01/Mapper.xml --morphline-file /opt/cm-5.8.5/run/cloudera-scm-agent/process/1602-ks_indexer-HBASE_INDEXER/morphlines.conf --zk-host s203:2181,s204:2181,s205:2181/solr --collection cctb01 --reducers 0

原来是因为region server在写入时会检查每个region对应的memstore的总大小是否超过了memstore默认大小的2倍(hbase.hregion.memstore.block.multiplier决定)，如果超过了则锁住memstore不让新写请求进来并触发flush，避免产生OOM。由于在flush时还会触发compact/split等操作。因此这个过程通常比较长，必须要紧持到对应的memstore完全刷新到磁盘才会结束，因此regionserver会睡眠10s再检查memstore是不是低于阀值。

对于在线应用来说，10s的时间是不可接受的，但这个过程确实非常漫长，因此可以调整以下配置以减少或者避免这种情况的出现。

<property>  
  <name>hbase.hregion.memstore.block.multiplier</name>  
  <value>8</value>//内存充足确保不会产生OOM的情况下，调大此值  
</property>  
<property>  
  <name>hbase.server.thread.wakefrequency</name>  
  <value>100</value>//减少睡眠等待时间，默认值为10000  
</property>