Nutch1.9安装

一、  Nutch安装并整合到Solr

 

1、下载并解压Nutch(此处使用版本1.9)      http://nutch.apache.org/

 

2、修改apache-nutch-1.9/conf/nutch-site.xml

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

 

3、添加需要爬取的urls种子,创建apache-nutch-1.9/urls/seed.txt:

此处添加一条url(如:http://www.oschina.net/

 

4、Nutch与Solr整合需要替换Solr Home中的Schema.xml

首先做好备份:

mv  solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

 

                     将nutch中的schema-solr4.xml copy到solr_home中,如下:

cp  apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

 

 

 

5、修改solr_home/solr/collection1/conf/schema.xml,

    

 <field name="id"下面加上

<field name="_version_" type="long" indexed="true" stored="true"/>

    

 

                            由于覆盖了之前配置好的IK分词器。所以需要重新配置:

<types>中增加如下内容:

            <fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

                   </fieldType>

                  

将需要用到IK分词的字段的type值修改以上定义的name

                               <field name="content" type="text_ik" stored="true" indexed="true"/>

<field name="title" type="text_ik" stored="true" indexed="true"/>

<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>

<field name="anchor" type="text_ik" stored="true" indexed="true"/>

 

 

到此处配置完成。

测试爬取:

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

当完成后,打开solr的管理界面,点击query将会看到nutch爬取的数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值