solr导入pdf操作

本文档介绍了如何在Solr 4.7中通过Apache Tika从PDF文件创建索引。首先,创建一个新的Solr core来存储文件索引,然后配置solrconfig.xml和schema.xml文件,添加提取请求处理程序和库依赖。接着,使用SolrJ进行测试,将PDF文件上传并创建索引,最后展示了查询和查看索引结果的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

索引数据源并不会一定来自于数据库、XML、JSON、CSV这类结构化数据,很多时候也来自于PDF、word、html、word、MP3等这类非结构化数据,从这类非结构化数据创建索引,solr也给我们提供了很好的支持,利用的是apache  tika。

下面我们来看看在solr4.7中如何从pdf文件创建索引。

 

一、配置文件索引库

1、  新建core

我们新建一个solr的core,用于存储文件型索引,新建core的步骤请参考:

http://blog.youkuaiyun.com/clj198606061111/article/details/21288499

2、  准备jar

我们在$solr_home下面新建一个extract文件夹,用于存放solr扩展jar包。

从colr4.7发布包中solr-4.7.0\dist拷贝solr-cell-4.7.0.jar到新建的extract文件夹下。拷贝 solr4.7发布包solr-4.7.0\contrib\extraction\lib下所有jar包到extract文件夹下。

3、  配置solrconfig.xml

添加请求解析配置:

[html] view plain copy

 

  1. <requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >  
  2.    <lst name="defaults">  
  3.     <str name="fmap.content">text</str>  
  4.     <str name="lowernames">true</str>  
  5.     <str name="uprefix">attr_</str>  
  6.     <str name="captureAttr">true</str>  
  7.    </lst>  
  8.   </requestHandler>  

 

指定依赖包位置:

注意,这个相对位置不是相对于配置文件所在文件夹位置,而是相对core主目录的。比如我的配置文件在solr_home\core1\conf, 但是我的jar包在solr_home\ extract那么我的相对路径就是../extract而不是../../extract。

[html] view plain copy

 

  1. <lib dir="../extract" regex=".*\.jar" />  

 

4、配置schema.xml

4.1配置索引字段的类型,也就是field类型。

其中text_general类型我们用到2个txt文件(stopwords.txt、synonyms.txt),这2个txt文件在发布包示 例core里面有位置在:solr-4.7.0\example\solr\collection1\conf,复制这2个txt文件到新建 的$solr_home的那个新建的core下面的conf目录下,和schema.xml一个位置。

 

[html] view plain

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值