
Nutch
wbj0110
这个作者很懒,什么都没留下…
展开
-
Nutch相关框架安装使用最佳指南(转)
Chinese installing and using instruction - The best guidance in installing and using Nutch in China 国内首套免费的《Nutch相关框架视频教程》 土豆在线观看地址:http://www.tudou.com/home/item_u106249539s0p1.html 超清原版下...原创 2013-12-02 09:34:26 · 207 阅读 · 0 评论 -
搜索引擎 Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择....原创 2013-12-31 14:52:27 · 141 阅读 · 0 评论 -
Nutch入门教程
Nutch入门学习原创 2014-05-23 09:25:48 · 156 阅读 · 0 评论 -
Nutch 实战
基本信息Nutch是一个开放源代码(open-source)的Java搜索引擎包,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如Map-Reduce、Hadoop、Plugin等。 回页首Nutch的总体结构Nutch从总体上看来,分为...原创 2014-05-25 09:01:23 · 138 阅读 · 0 评论 -
Nutch Crawler抓取数据并存储到MySQL
Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完成了指定网站数据的抓取。首先,需要准备好Nutch。...原创 2014-05-28 13:09:35 · 225 阅读 · 0 评论 -
Nutch抓取源码分析之Crawl类
1、初始化一个Configuration实例设置抓取工作配置;2、设置一些默认抓取工作参数,比如进程数threads、抓取深度depth、抓取网页数量topN;3、创建抓取工作抓取到的网页文件的存放目录(crawldb、linkdb、segments、indexes、index),用来存放原生网页,以及网页解析出的文本内容及其其它相关数据;4、在抓取工作及其索引过程中,这通过初始化...原创 2014-06-04 13:32:26 · 146 阅读 · 0 评论 -
SOLR4.2+NUTCH1.6
1、SOLR4.2集成NUTCH1.6wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz tar -xzvf solr-4.2.0.tgz cd solr-4.2.0/example 复制nutch的conf目录中的schema-solr4.xml文件到solr/collectio...原创 2014-03-24 09:47:24 · 144 阅读 · 0 评论 -
nutch2.1+mysql+elasticsearch整合linux单机部署
from internet这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署。1、下载nutch2.1 nutch下载地址:http://labs.mop.com/apache-mirror/nutch/2.1/apache-nutch-2.1-src.tar.gz 下载完成后解压, 2、配置nu...原创 2013-10-21 09:18:31 · 231 阅读 · 0 评论