nutch1.3集成solr3.4并支持中文

最新推荐文章于 2023-03-13 22:30:46 发布

转载最新推荐文章于 2023-03-13 22:30:46 发布 · 638 阅读

·

0

·

lucene 同时被 2 个专栏收录

3 篇文章

订阅专栏

2 篇文章

订阅专栏

本文介绍了如何在Linux环境下安装Nutch 1.3及Solr 3.4，并实现两者之间的集成。主要内容包括Nutch的基本配置、Solr的中文支持配置及与Nutch的集成步骤。

(一）安装nutch1.3

1.linux环境，分别从nutch、solr官网下载1.3版本和3.4版本压缩包

2.分别解压，假定nutch目录为/nutch1.3，solr目录为/apache-solr-3.4.0

3.进入/nutch-1.3/runtime/local目录，vibin/nutch，设置JDK1.6路径

NUTCH_JAVA_HOME=/usr/local/jdk1.6.0_22（这个地方应该是jdk6的实际安装路径）

4.chmod +x bin/nutch

5.vi conf/nutch-site.xml,增加配置

<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

6.mkdir-p urls 用来存放爬行目标站点

7.vi urls/nutch 增加第一个爬行站点

www.sina.com.cn

8.bin/nutchcrawl urls -dir crawl -depth 3 -topN 5

如果爬行无误，证明nutch安装成功，爬行功能正常。

（二）安装solr并集成中文

1.cp /nutch1.3/conf/schema.xml/apache-solr-3.4.0/example/solr/conf/

覆盖solr原始配置文件（原始文件想保留，可以先备份）

2.进入/apache-solr-3.4.0/example目录，vistart.sh

/usr/local/jdk1.6.0_22/bin/java -jarstart.jar&

3.chmod +x start.sh

4.vi solr/conf/schema.xml，增加ik中文分词支持

将旧的配置段

<fieldTypename="text" class="solr.TextField"

positionIncrementGap="100">

<analyzer>

<tokenizerclass="solr.WhitespaceTokenizerFactory"/>

<filterclass="solr.StopFilterFactory"

ignoreCase="true"words="stopwords.txt"/>

<filterclass="solr.WordDelimiterFilterFactory"

generateWordParts="1"generateNumberParts="1"

catenateWords="1" catenateNumbers="1"catenateAll="0"

splitOnCaseChange="1"/>

<filterclass="solr.LowerCaseFilterFactory"/>

<filterclass="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

<filterclass="solr.RemoveDuplicatesTokenFilterFactory"/>

</analyzer>

</fieldType>

替换为

<fieldType name="text"class="solr.TextField">

<analyzertype="index">

<tokenizerclass="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>

<filter class="solr.StopFilterFactory"ignoreCase="true" words="stopwords.txt"enablePositionIncrements="true" />

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

<analyzertype="query">

<tokenizerclass="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="true"/>

<filterclass="solr.StopFilterFactory" ignoreCase="true"words="stopwords.txt" enablePositionIncrements="true"/>

<filterclass="solr.SynonymFilterFactory" synonyms="synonyms.txt"ignoreCase="true" expand="true"/>

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

</fieldType>

5. 此时solr还缺ik的支持包，无法运行，执行./start.sh会有提示

6.进入work目录，一直往里，找到WEB-INF/lib目录，将ik支持包IKAnalyzer3.2.8.jar拷贝到该目录

7.重启solr,执行./start.sh，如果不提示错误，证明solr集成ik启动无误。

8.访问http://your.host.ip/solr/admin出现solr页面，证明solr安装成功。

（三）集成nutch和solr

1.进入nutch目录，执行

./bin/nutch crawl urls -solr http://localhost:8983/solr/ -dir crawl-depth 3 -topN 5

如不提示错误，则nutch爬行www.sina.com.cn成功，并完成在solr建立索引。

2.访问http://your.host.ip/solr/admin，输入“财经”，如果显示查询结果页，证明整个安装集成大功告成。

转载请注明出处。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。