lucene是一个做搜索用的类库。
nutch和solr都是基于lucene的,二者都是可直接运行的应用程序。
solr是lucene的服务器化,内嵌了jetty,提供REST接口,
用户可以直接post数据给solr,然后由solr进行索引。
solr不包含下载系统,用户需要负责下载,转成solr所需要的格式。
solr还提供查询接口供用户查询。
nutch可以看成一个out-of-box的搜索引擎,包含了crawler,indexer和查询接口。
但nutch更偏向于下载系统。
一般可以使用nutch做crawler,而使用solr做indexer和查询接口。
====================================================
Nutch和Solr是两个由Apache成员创建的实用工具,你可以使用Nutch抓取网页,使用Solr索引你得到的数据。
除了索引各类网站,这些工具还有很多其他功能,本文将不涉及这些,而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。
本文将不会讨论它们如何工作的大量细节,而会告诉你如何运行一个爬虫和建立索引,我将假设你已经搭建好了tomcat服务器。
1、确认你已正确安装JAVA并正确设置了JAVA_HOME和CLASSPATH变量。
2、下载并解压apache-nutch-1.3-bin.tar.gz(http://nutch.apache.org)和apache-solr-3.3.0.gz (http://lucene.apache.org/solr/)到不同的文件夹下。
3、设置Nutch:编辑NUTCH_ROOT/conf/nutch-default.xml,设置http.agent.name的value为你的爬虫的名字。
4、设置Solr:拷贝NUTCH_ROOT/conf目录下所有文件至SOLR_ROOT/example/solr/conf,覆盖任何可能存在的文件。
<requestHandler name="/nutch" class="solr.SearchHandler" >
<lst name="defaults">
<str name="defType">dismax</str>
<str name="echoParams">explicit</str>
<float name="tie">0.01</float>
<str name="qf">
content^0.5 anchor^1.0 title^1.2
</str>
<str name="pf">
content^0.5 anchor^1.5 title^1.2 site^1.5
</str>
<str name="fl">
url
</str>
<str name="mm">
2<-1 5<-2 6<90%
</str>
<int name="ps">100</int>
<str name="q.alt">*:*</str>
<str name="hl.fl">title url content</str>
<str name="f.title.hl.fragsize">0</str>
<str name="f.title.hl.alternateField">title</str>
<str name="f.url.hl.fragsize">0</str>
<str name="f.url.hl.alternateField">url</str>
<str name="f.content.hl.fragmenter">regex</str>
</lst>
</requestHandler>
5、启动Solr:$ cd SOLR_ROOT/example
6、启动爬虫:$ cd NUTCH_ROOT
你可以设置任意数字,一般情况下数字越大抓取的数据越多。抓取的时间也越长。
例如,下面这个抓取命令可能要用上一两天时间
7、索引抓取结果:
$ bin/nutch solrindex http://HOST_ADDRESS:8983/solr/ crawl/crawldb crawl/linkdb crawl/segments/*
这里的端口号和下面提到的端口号依据你的服务器设置而定,访问http://HOST_ADDRESS:8983/solr/admin,查看缺省的Solr管理面板,搜索索引。
当你到达结果页后,你可以在地址栏看到url,点击url你也可以看到XML的结果。
依据以上步骤,你将拥有你自己的一个迷你搜索引擎。它将只会搜索你所指定的网址,但你了解更多后,你将发现Nutch和Sorl能帮你实现更多神奇的事情。目前有关这些工具的友好的文档还不够丰富,下面的几个链接能帮助你开始你的探索旅程:
Nutch Wiki:http://wiki.apache.org/nutch/
Solr Wiki:http://wiki.apache.org/solr/FrontPage
Lucid Imagination:http://www.lucidimagination.com/
=============================================================
Nutch1.4
最近一段在研究Nutch、Solr,Nutch 把数据 存放在 HDFS 上,想探讨一下 Nutch 是怎么把数据存储到HDFS 上,查看源码分析。
在看 Nutch 源码时,没有找到一点于 Lucene 关联的内容,Nutch 把所有的,都按自己的重新写了一遍,NutchDocument、NutchField ,都 实现 Hadoop的 Writable 接口。这样就很容易的写到了 HDFS 上。
Nutch 可以 用 把数据传输给 Solr
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
这个命令调用的是:org.apache.nutch.indexer.solr.SolrIndexer
在上面会 MapReduce 的配置 及启动。查看Reduce的实现,没有任何的 向Solr 写内容的代码,在初始化Job的时候
NutchIndexWriterFactory.addClassToConf(job, SolrWriter.class);
有一个这样的类,SolrWriter ,在这个里面可以找到相关与Solr交互的代码。
而Solr 里,接收请求的是:BinaryUpdateRequestHandler ,会把 Nutch 传进来的 内容 转换成 Lucene 的索引