前言
在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file
。这里的index_parameter_file
是xml格式的参数文件,用来配置索引模型的参数。
下面详细说明参数的使用方法。
<parameters>
<memory>1G</memory> #运行索引需要的内存,数字后可加K/M/G来表示大小,例如100M=100000000
<index>/home/PROJECT/Index</index> #存放生成的索引的路径,注意:重新生成索引时要把原索引删除
<stemmer> #词干提取,分为krovetz和porter,默认无词干提取
<name>krovetz</name>
</stemmer>
<stopper> #指定停用词,默认无停用词
<word>stopword</word>
</stopper>
<corpus> #可多次指定
<path>/home/Collections/Volume1</path> #需要建立索引的语料的存放路径
<class>trectext&