Lemur简明教程

最新推荐文章于 2024-08-19 10:40:47 发布

转载最新推荐文章于 2024-08-19 10:40:47 发布 · 3k 阅读

深度学习专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍使用Lemur检索系统进行信息检索实验的过程，包括安装配置、建立索引、检索与评测等环节，并提供了训练最优参数的具体方法。

转自：http://blog.youkuaiyun.com/memray/article/details/8973457

课程作业需要做一个评测实验，借机会了解一下Lemur，其实使用教程在Lemur官网（http://www.lemurproject.org/）和SourceForge（http://sourceforge.net/projects/lemur/wiki/）上都有较为详细的讲解，不过后者的文档是从原来的Lemur资料库转移过去的，很多内容不全，建议多查看Indri目录里的doc。中文教程不多，毛进师兄那里一些不错的资源（http://blog.sciencenet.cn/home.php?mod=space&uid=563898）。

我也把自己的实验过程简单记录一下。

其实目前世界上有不少经典的检索工具，之前我们做实验都是使用Apache Lucene，但是学术界还是比较认可Lemur。Lemur项目是由UMass和CMU的牛们共同合作的，《Search Engines:Information Retrieval in Practice》是Lemur的重要成果，作者就是Croft，另外两个作者都是他的学生，都去Google搜索部门混了。国内译本是刘挺翻译的，一直放桌上还没看过。。不查不知道，其实还有很多实现的搜索引擎，比如Lucene，Terrier，Wumpus等等（http://www.emse.fr/~mbeig/IR/tools.html）。有必要针对一两个分析他们的具体实现。

1. 实验目的

使用k折交叉检验（k=5）训练出下列模型的最优参数：

o LM 2-Stage

Mu的取值范围：

mu=(100,500, 800, 1000, 2000, 3000, 4000, 5000, 8000, 10000);

Lambda的取值范围：

lambda=(0.01,0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99);

o BM25

K1及b的取值范围：

K1=(1.0, 1.1, 1.2, 1.3, 1.4, 1.5,1.6, 1.7, 1.8, 1.9,2.0);

b = (0, 0.1 ,0.2, 0.3, 0.4, 0.5,0.6,0.7 0.8, 0.9, 1.0);

2. 安装

Indri的安装很简单，下载传送门：https://sourceforge.net/projects/lemur/files/lemur/

里面有不少内容可以下载，Indri就是我们实验需要的程序，最新版本为5.4。lemur-toolkit是将包括Indri在内的诸多工具的整合，我们后文需要用到的评测工具ireval就是在这里面。只下载lemur-toolkit也可以完成我们的实验，不过它早在2010年就不再更新了。

如果你选择使用Indri 5.4，评测工具ireval.jar可以从这里下载：http://gimlet.is.inf.uni-due.de:8081/nexus/content/groups/public/evalutil/

安装不说，exe点击搞定。安装的时候可以选择安装Java GUI，能够提供简单的建立索引和检索功能。Lemur的GUI功能相比Indri的更强大一些，起码能加参数~不过GUI对于我们参数调优也显得很无力，必须靠程序实现。

3. 建立索引

找到Indri安装路径，在cmd下运行这个命令即可使用Indri对指定的语料数据建立索引。

[java]view plain copy 
    
         Indri5.4/bin/IndriBuildIndex parameter_file（parameter_file为索引的参数文件）  

Parameter_file 常用参数介绍如下，更详细的参数设置在doc/IndriParameters.html有更详细的介绍，包括annotations、metadata等：

[html]view plain copy 
    
 <parameters>  
     <memory>200m</memory> （运行时内存大小）  
     <index>/path/to/outputIndex</index>(存放生成的索引的路径，注意，重新生成索引时要把原索引删除)  
     <stemmer>  
         <name>krovetz</name>（词干提取，分为krovetz和porter）  
     </stemmer>  
     <corpus>  
         <path>/path/to/collection1/</path>(需要建立索引的语料的存放路径)  
         <class>trectext</class> （语料的格式，一般为xml、trec数据格式等等）  
     </corpus>  
     <corpus>  
         <path>/path/to/collection2/</path>（另一个语料的路径，说明可以同时对不同路径下的语料建立索引）  
         <class>trecweb</class>  
     </corpus>  
     <field><name>title</name></field>（建立索引一般有需要索引域，这是title索引域，域索引用于域查询）  
     <field>  
         <name>date</name>  
         <numeric>true</numeric>  
         <parserName>DateFieldAnnotator</parserName>  
     </field>  
 </parameters>  

我是用的是iSearch数据集，是一个5.04G大小的xml数据集，跑了将近8个小时终于生成了一个大小为6.01G的索引。居然比原数据还大 =。=

4. 检索

在建立索引之后，我们就可以进行检索部分了。使用不同的模型运用不同的参数就能得到不同效果的检索结果。我们的实验也就是不断尝试不同的参数，从而得到在这个数据集上最优的结果。

与建立索引类似，检索也需要在cmd下运行指令。一个样例指令形式如下：

[java]view plain copy 
    
         indri-5.0/bin/IndriRunQueryquery_parameter_file -count=1000 -index=/path/to/index -trecFormat=true >result_file  

其中query_parameter_file为检索的参数文件，count表示对应每个检索返回多少个检索结果，index为你生成索引的路径，trecFormat表示生成结果是否按照trec格式，设定为trec格式输出就可以直接使用ireval工具进行评测了。

下面为一个query_parameter_file示例:

[html]view plain copy 
    
 <parameters>  
     <rule>method:dirichlet,mu:1000</rule>(1)  
     <index>I:/data/Reuters/Reuters_krovetz_index_ubuntu</index>（索引存放的位置）  
     <count>1000</count>（返回结果的数量，即每个query返回1000个结果）  
     <query>  
         <number>R150</number>  
         <text>#combine(Driveby shootings)</text>（一个查询对象，#combine（query1,query2）为最常用 的非域查询）  
     </query>  
     <trecFormat>true</trecFormat>（是否使用TREC输出格式）  
     <queryOffset>1</queryOffset>（表示Indri从第几个query开始执行）  
     <runID>indri_query</runID>（一个标示ID，TREC格式输出用）  
 </parameters>  

需要注意的是，Indri默认是使用Language Model作为检索模型的，同时可以使用不同的平滑方法来改进检索效果。注意(1)处，这里使用的是Dirichlet平滑，也是Indri的默认平滑方法，平滑方法和参数用<rule>标明。此外还可以选择的平滑方法有jelinek-mercer及twostage方法，配置格式如下：

[html]view plain copy 
    
 <rule>method:jm,lambda:0.4</rule>  
 <rule>method:twostage,mu:1500,lambda:0.4</rule>  

但是如果我要使用别的检索模型做对比实验怎么办？Indri内置实现了TFIDF和BM25这两个检索模型，使用时在配置文件里就不要写上面的<rule>咯，这两个模型使用<baseline>标明：

[html]view plain copy 
    
 <baseline>tfidf,k1:1.0,b:0.3</baseline>  
 <baseline>okapi,k1:1.0,b:0.3,k3:7</baseline>  

同时由于tfidf和bm25不支持Indri的 Indri Query Language，也就是上面<query>中的#combine(Driveby shootings)语法。因此需要将query改成平文本。

[html]view plain copy 
    
 <query>  
     <number>R101</number>  
     <text>Economic  espionage</text>  
 </query>  

此外Indri还支持相关反馈设置，有需要自行查看。

由于我的实验中需要不断的调整参数进行效果对比，因此就把参数直接写在了cmd命令行中，同时把检索结果输出到query_result_file中以方便下一步评测：

[cpp]view plain copy 
    
 IndriRunQuery ../run_query1_train.ini-rule=method:twostage,mu:100,lambda:0.4 -count=100 >C:\Users\Administrator\Desktop\ireval\query_result.ini  
 IndriRunQuery ../run_query1_train.ini-baseline=okapi,k1:1.2,b:0.75 -count=100 >C:\Users\Administrator\Desktop\ireval\query_result.ini  

5. 评测

由于我们在Query设置中标明了使用TREC数据格式，因此评测就可以使用一些成型的TREC评测工具。这里主要有两个方法：

（1）trec_eval

（2）ireval

我实验中使用的是后者。命令：

[java]view plain copy 
    
     java -jar lemur/ireval/src/ireval.jartestrun_result qrel_file  

testrun_result是前面query步骤生成的检索结果，qrel_file则是提前标注好的“标准答案”。

一个ireval生成的评价结果如下：

结果中使用了颇多评价标准，具体可以参加下面两个blog：

http://blog.sina.com.cn/s/blog_72995dcc01013oo9.html

http://blog.youkuaiyun.com/marising/article/details/6543943

6. 训练最优参数程序

如果从同一个训练样本中选择独立的样本作为验证集合，当模型因训练集过小或参数不合适而产生过拟合时，验证集的测试予以反映。交叉验证是一种预测模型拟合性能的方法。

K折交叉检验（K-fold cross-validation）是常用交叉验证形式之一。初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据（测试集），其他K-1个样本用来训练（训练集）。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10次交叉验证是最常用的。伪代码：

[java]view plain copy 
    
     createIndriIndex();  
     divideQueriesIntoKParts();//随机将所有query平均划分为K份;  
     For(datasetID:datasetIDs){//选取一个为测试数据集，剩余的为训练测试集  
         Floatmax_p@10 = 0.0;  
         Parameter bestParameter;  
         For(mu :muValues)  
             For(lambda: lambdaValues){//迭代参数  
                 Filequery_result = runQuery(trainDataset[datasetID], mu, lambda);//使用训练数据集检索  
                 Floatp@10 = evaluteResult(query_result);  
                 If(p@10>max_p@10){  
                     max_p@10= p@10;  
                     bestParameter= new Parameter(mu,lambda);  
                 }  
         }  
         evaluateWithTestDataset(testDataset[datasetID],bestParameter);//使用测试数据集对最佳参数进行验证  
     }