lucene in action 第二章(索…

本文介绍了Lucene中索引管理的关键技术,包括如何通过删除document回收磁盘空间、buffer和flush的工作机制、索引提交的过程及意义,以及如何控制merge以优化索引效率。
一、通过删除document来回收磁盘空间
Lucene用一个bit数组来标示要删除的document,非常快,但是要删除的document在磁盘空间。直到segment被merge或者显示调用optimize的时候才会真正滴删除那些被标记需要删除的 document。
二、buffer 和flush
    出于对io的考虑,当有document被add或者delete的时候这些document都会在内存中缓存。
   这些改变会周期性滴flush到indexDirectory中以一个新的segment出现。
  有三个条件可以控制这个flush过程。
  1、buffer的内存大小
  2、buffer的document数量
  3、buffer的term数量
分别对应的方法是:
                                writer.setRAMBufferSizeMB(mb)
              writer.setMaxBufferedDocs(maxBufferedDocs)
writer.setMaxBufferedDeleteTerm s(maxBufferedDeleteTerms)
Flushing 和commit的区别:
当flush发生时候,会生成一个segment但是这个segment对于一个已经打开的IndexReader是不可见和不可用的,只有调用commit或者close并且reopen后IndexReader才能使用。

三、索引的提交(Index commits)
      一个刚打开的indexReader和indexSearcher只能看到上一次最近的commit
      indexWriter的commit操作要做四件事:
      1、flush所有缓冲的 document和deletion
      2、同步所有的刚创建的文件:包括flush新创建的文件,或者merge产生的新文件。这些同步都是通过indexWrite调用Directory.syn来实现的。其实所有io都是在Directory这一层来实现的。
    3、创建并写入一个新的segment_N文件。注意创建新的segment_N后 indexReader才能看到新的改变。
    4、通过调用IndexDeletionPolicy,删除老的commits。

四、控制Merging
  Merge的好处
   1、减少segment的数量,减少文件描述符资源的消耗,系统有文件描述符上限。加快search的速度。
   2、减少index的大小,因为在merge的时候会删除掉那些mark fordelete的doc。

   indexWriter 以来 MergePolicy的子类来控制什么时候merge。每当一个segmentflushed,或者上一个merge执行完毕的时候,就会使用MergePolicy来考虑是否进行Merge。
  有两个子类:LogByteSizeMergePolicy. 是通过一个segment的大小来决定
                    LogDocMergePolicy 以一个segment中的document的数量来决定

          可以使用MemgePolicy的以下字段控制合并的行为
  • mergeFactor:当大小几乎相当的段的数量达到此值的时候,开始合并。
  • minMergeSize:所有大小小于此值的段,都被认为是大小几乎相当,一同参与合并。
  • maxMergeSize:当一个段的大小大于此值的时候,就不再参与合并。
  • maxMergeDocs:当一个段包含的文档数大于此值的时候,就不再参与合并
  • 合并的过程是尽量按照合并几乎相同大小的段这一原则,只有大小相当的mergeFacetor个段出现的时候,才合并成一个新的段
  • 比如mergeFactor=3,开始来的段大小为10M,当凑够3个10M的时候,0.cfs, 1.cfs,2.cfs则合并成一个新的段3.cfs,大小为30M,然后再来4.cfs, 5.cfs,6.cfs,合并成7.cfs,大小为30M,然后再来8.cfs, 9.cfs, a.cfs合并成b.cfs,大小为30M,这时候又凑够了3个30M的,合并成90M的c.cfs,然后又来d.cfs, e.cfs,f.cfs合并成10.cfs,大小为30M,然后11.cfs大小为10M,这时候硬盘上的段为:c.cfs(90M)10.cfs(30M),11.cfs(10M)。
  选则一个merge只是第一步,具体的执行merge依赖于MergeScheduler,它有两个子类,concurrentMergeScheduler,是后台的thread并行执行,而SerialMergeSchedulrshi串行的


这哥们写得很好http://xangqun.iteye.com/blog/686827










智慧医药系统(smart-medicine)是一款采用SpringBoot架构构建的Java Web应用程序。其界面设计简洁而富有现代感,核心特色在于融合了当前前沿的生成式人工智能技术——具体接入了阿里云的通义千问大型语言模型,以此实现智能医疗咨询功能,从而增强系统的技术先进性与实用价值。该系统主要定位为医学知识查询与辅助学习平台,整体功能结构清晰、易于掌握,既适合编程初学者进行技术学习,也可作为院校课程设计或毕业项目的参考实现。 中医舌诊作为传统医学的重要诊断手段,依据舌象的颜色、形状及苔质等特征来辨析生理状况与病理变化。近年来,随着计算科学的进步,人工智能技术逐步渗透到这一传统领域,形成了跨学科的研究与应用方向。所述的中医舌诊系统正是这一方向的实践产物,它运用AI算法对舌象进行自动化分析。系统以SpringBoot为基础框架,该框架依托Java语言,致力于简化Spring应用程序的初始化与开发流程,其突出优势在于能高效构建独立、可投入生产的应用,尤其契合微服务架构与云原生环境,大幅降低了开发者在配置方面的负担。 系统中整合的通义千问大语言模型属于生成式人工智能范畴,通过海量数据训练获得模拟人类语言的能力,可在限定领域内生成连贯文本,为用户提供近似专业医生的交互式咨询。该技术的引入有助于提升诊断过程的自动化水平与结果一致性。 在设计与体验层面,本系统强调逻辑明晰与操作简便,旨在降低用户的学习门槛,尤其适合中医知识的入门教学。整体交互模式接近百科全书式查询,功能模块精炼聚焦,因而非常适用于教育场景,例如学术项目展示或毕业设计答辩。通过直观的实践界面,使用者能够更深入地理解中医舌诊的理论与方法。 此外,系统界面遵循简约大气的设计原则,兼顾视觉美感与交互流畅性,以提升用户的专注度与使用意愿。结合AI的数据处理能力,系统可实现对舌象特征的快速提取与实时分析,这不仅为传统诊断方法增添了客观量化维度,也拓展了中医知识传播的途径。借助网络平台,该系统能够突破地域限制,使更多用户便捷地获取专业化的中医健康参考,从而推动传统医学在现代社会的应用与普及。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
【掺铒光纤放大器(EDFA)模型】掺铒光纤放大器(EDFA)分析模型的模拟研究(Matlab代码实现)内容概要:本文介绍了掺铒光纤放大器(EDFA)分析模型的模拟研究,并提供了基于Matlab的代码实现方案。通过对EDFA的工作原理、增益特性、噪声系数等关键性能指标进行数学建模与仿真分析,帮助研究人员深入理解其在光通信系统中的作用机制。文档还列举了多个相关科研方向的技术支持内容,涵盖智能优化算法、路径规划、无人机应用、通信与信号处理、电力系统管理等多个领域,展示了Matlab在科学研究与工程仿真中的广泛应用能力。此外,文中附带网盘链接,便于获取完整的代码资源与开发工具包。; 适合人群:具备一定光学通信或电子信息背景,熟悉Matlab编程,从事科研或工程仿真的研究生、高校教师及技术研发人员。; 使用场景及目标:①用于光通信系统中EDFA性能的理论分析与仿真验证;②支持科研人员快速构建和测试EDFA模型,提升研究效率;③为教学实验、毕业设计及学术论文复现提供可靠的技术参考与代码基础。; 阅读建议:建议读者结合光通信基础知识,按照文档结构逐步运行并调试Matlab代码,重点关注模型参数设置与仿真结果分析,同时可利用提供的网盘资源拓展学习其他相关课题,深化对系统级仿真的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值