Lucene4.0 LogMergePolicy

最新推荐文章于 2023-09-28 16:02:26 发布

转载最新推荐文章于 2023-09-28 16:02:26 发布 · 77 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/llguanli/p/8683854.html

本文介绍了Lucene中的合并策略，包括LogDocMergePolicy和LogByteSizeMergePolicy的特点及工作原理。详细解释了如何通过计算段的级别进行合并，并讨论了在特定条件下强制合并的发生。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

其特点是给定的段列表顺序归并,不像TieredMergePolicy那样按大小排序之后决定。

norm = log(10),levelFloor=log(minMergeSize)/norm,对段列表中的元素，加入level值为log(size)/norm(即使log 10 size)的seg。

从列表位置0開始,取最大的logLevel为maxLevel,levelBottom=(float)(max-0.75)(假设maxLevel<=levelFloor,levelBottom=-1.0,levelBottom<levelFloor则levelBottom=levelFloor)。

从后往前找到第一个level大于等于levelBottom的位置upto,在[start, upto + 1)中以10个一组。在当中假设找不到不论什么size >= maxMergeSize,sizeDocs >= maxMergeDocs或正在合并的段时，将其加入merges数组。

下次则从1+upto位置開始找归并段。

findForceMerges仅仅发生在IndexWriter中有maxNumSegments限制的情况下。

LogDocMergePolicy中size依照sizeDocs计算,minMergeSize默觉得1000.

LogByteSizeMergePolicy中默认minMergeSize是1.6M,maxMergeSize是2G。

转载于:https://www.cnblogs.com/llguanli/p/8683854.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30826095

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Lucene学习总结之五：Lucene段合并(merge)过程分析

forfuture1978的专栏

03-06

7538

一、段合并过程总论IndexWriter中与段合并有关的成员变量有：HashSet mergingSegments = new HashSet(); //保存正在合并的段，以防止合并期间再次选中被合并。 MergePolicy mergePolicy = new LogByteSizeMergePolicy(this);//合并策略，也即选取哪些段来进行合并。

Lucene随笔-LogMergePolicy

u011926899的专栏

04-27

388

lucene版本：6.5.4 当IW索引中的数据发生任何变化时，都会触发merge检测，即找出可以合并的merge的segment集合；并且判断是否需要合并，如果需要合并则返回一组OneMerge，一个OneMerge对应的时一个Segment。**那么如何取获取那些需要合并的段集合呢？**这就是我们本节所要讲的。在Lucene4版本前，其默认的MergePolicy为LogMergePoli...

参与评论您还未登录，请先登录后发表或查看评论

Lucene-MergePolicy详解

最新发布

DK_ing的博客

09-28

1346

该文章基于业务需求背景，因场景需求进行参数调优，下文会尽可能针对段合并策略（SegmentMergePolicy）的全参数进行说明。一句话描述：TieredMergePolicy：找出大小接近且最优的段集。下面对该概括进行详细分析。频繁且大量的段合并会造成进程CPU飙升。

lucene4.0+ik

07-02

《深入理解Lucene4.0与IKAnalyzer2012：构建高效全文检索系统》在信息化时代，数据量的快速增长使得高效的全文检索技术变得至关重要。Lucene作为Apache软件基金会的一个开源项目，是Java领域内最著名的全文搜索...

lucene4.0实例

11-30

《Lucene4.0实例详解》 Lucene是一款强大的全文搜索引擎库，被广泛应用于各种信息检索系统中。这里我们主要探讨的是Lucene 4.0版本的实例应用，旨在通过实际操作来理解其核心概念和功能。一、Lucene基础 Lucene ...

IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码

10-02

"IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码" 提供的是IK分词器的一个特定版本，适用于Lucene 4.0，这在当时是一个相对老但仍然被一些项目依赖的版本。分词是中文信息处理的关键步骤，它将连续的汉字序列分割成...

lucene4.0简单的新增和查询

12-20

**Lucene 4.0 简单的新增和查询** Lucene 是一个开源的全文检索库，由 Apache 软件基金会开发。版本 4.0 的发布为开发者提供了更高效、更灵活的搜索解决方案。这个样例项目旨在演示如何在 Lucene 4.0 中实现基本的...

lucene4.0 demo

12-12

《Lucene 4.0：构建搜索引擎的基本操作详解》 Lucene 4.0是一款强大的全文搜索引擎库，广泛应用于各种信息检索系统。本教程通过一个简单的demo，将深入讲解如何利用Lucene 4.0创建索引、删除索引以及进行有效搜索。...

lucene（es）段合并策略-LogMergePolicy

Angus

02-03

1233

dLogMergePolicy 本篇文章介绍索引文件的合并策略，某次提交(commit)或者刷新(flush)的所有索引文件属于一个新的段（Segment），所以也可以称为段合并(Segment Merge)。当IndexWriter索引中的数据有任意修改动作，它会调用findMerges(...)方法通过某个合并策略(MergePolicy)来找出需要合并的段集，如果需要合并，那么合并策略会返回一个oneMerge的集合，oneMerge的个数描述了IndexWriter需要执行合并的次数，单个o

Lucene 源码系列——默认 merge 策略 TieredMergePolicy

lgq2016的博客

04-27

959

Lucene 源码系列——默认 merge 策略 TieredMergePolicy 这篇文章介绍 TieredMergePolicy，它是 Lucene4 以后的默认段的合并策略，之前采用的合并策略为 LogMergePolicy，建议先熟悉 LogMergePolicy 后再了解 TieredMergePolicy，这样对于两种合并策略的优缺点能一目了然，使得在不同业务使用对应的策略，其中两...

log4j配置及按log level分文件写日志

jaesonchen

12-13

970

log4j配置文件有三个主要的组件：Logger，Appender和Layout，分别为日志类型，日志输出目的地，日志输出格式。 log4j.rootLogger = [level], appenderName, appenderName, ... (level是错误级别，appenderName是输出目的地，本例设为mylog，可以定义多个) level优先级分别为FATAL、ERROR、W...

Lucene's MergePolicy

Lucene/Solr解密

03-23

1342

Lucene’s MergePolicy Lucene很多特征，在我看来跟LSM-Tree的数据库非常相似，甚至很多问题的解决方式都如出一辙。这里我想跟大家来聊聊Lucene的Segment合并问题，这个问题同样发生LSM-Tree数据库（HBase）。我们知道我们每次冲刷索引时，Lucene都会生成一个Segment。类似就是每个MemStore的冲刷势必会产生一个HFile的道理是一样一...

Lucene入门(2): Solr内部的合并策略

yangsongxuan的专栏

10-10

2634

原文地址: http://java.dzone.com/news/merge-policy-internals-solr 上周,一个同事问了我一个关于solr的段合并的简单问题. 在讨论这个问题了几分钟后, 我意识到关于这个问题还有许多精细的地方值得注意, 所以我开始阅读源代码, 然后发现了一些很有意思的事情, 这也是我在这个文章将要总结的东西 . 首先, 什么是合并策略(me

lucene内部的合并策略

hankesi2000的专栏

05-24

295

原文链接：[url]http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene[/url] solr(or lucene)内部的合并策略是怎样的呢？选择哪些段(segment)需要被合并，是基于名为[color=gray]MergePolicy[/color]的抽象类决定的。这个类创建了一个合并规...

Lucene4.6中LogMergePolicy解析

jollyjumper的专栏

01-03

2838

a MergePolicy determines the sequence of primitive merge operations. Whenever the segments in an index have been altered by IndexWriter, either the addition of a newly flushed segment, addition of

Lucene4.0实践教程：案例解析与应用

### 知识点：Lucene 4.0 实例 #### 1. Lucene 4.0 简介 Lucene 是一个高度可扩展的开源文本搜索引擎库，由Apache软件基金会支持。它为各种应用提供全文检索功能，常用于大型文档集合的索引和搜索。Lucene 4.0版本...