之所以说Lucene和PDFBox关系亲密,是因为,要对PDF文件进行索引并不想txt文件那么简单,而PDFBox却提供了一套简单的方法,同样的将PDF documents加入到Lucene的索引中去。
很早以前,关于Lucene的索引,我们就说到过document。现在回忆一下下面的代码:
对,Document是负责收集数据源的逻辑文件, Document和物理文件对应起来,一个Document就能关联上很多个数据源。(已经提醒到这个地步了,如果想不起来就快看看以前的文章吧。温故而知新!!!)
然而PDFBox也同样提供类似与这样的Document,叫做LucenePDFDocument。其用法和我们常用的Document的是一样的,只是其生成的Document的格式略有差异。大家可以上面查查LucenePDFDocument都提供了哪些信息,让我们多数据源的元数据进行逐一提取。
(代码如下所示,请参照Lucene的Document的用法,这样理解起来更加方便。)
补充:PDFBox的下载
官网下载:http://sourceforge.net/projects/pdfbox
下载完毕后解压,将以下jar包加载到工程中
bcmail-jdk.jar
bcprove-jdk.jar
checkstyle-all.jar
FontBox-dev.jar
Lucene-core.jar
(PDFBox更新后版本不一致,皆可使用)
参考资料:《开发自己的搜索引擎》 人民邮电出版社 邱哲 符滔滔编著