
Nutch
missingu1314
这个作者很懒,什么都没留下…
展开
-
运行nutch常见几个错误
1.1.1 Crawl抓取出现hadoop出错提示 配置完成nutch在cygwin中运行nutch的crawl命令时: [Fatal Error] hadoop-site.xml:15:7: The content of elements must consist of well -formed character data or markup. Exception in threa转载 2013-01-20 18:18:51 · 1293 阅读 · 0 评论 -
Linux下的Nutch 1.4 安装配置
Linux下的Nutch 1.4 安装配置 Nutch,一个爬虫或者搜索引擎(加上索引的话)。 现在Nutch的最新版本是Nutch2.0,但是还没有bin版本,只有src版本。Nutch所有的版本可在这个网址下载http://archive.apache.org/dist/nutch/,这里使用的是Nutch1.4。 1. 下载Nutch1.4. 到http://archiv转载 2013-01-20 17:55:33 · 725 阅读 · 0 评论 -
Lucene Nutch 入门简明教程总结(转载 收藏)
原文地址:http://cid-47027e68f36cbaf5.spaces.live.com/blog/cns!47027E68F36CBAF5!443.entry 先声明,是个菜鸟的总结。总结的是一件很菜鸟的事情。 事情的起因是1月2号,在实验室,黄黄的书架上看到一本书《Lucene in action》。觉得有意思,拿过来一看。又见Nutch是基于Lucene的一个开源转载 2013-01-21 00:42:32 · 645 阅读 · 0 评论 -
Solr 和Nutch的一些资料
2012-1209 Apache Nutch 1.6 发布 暂无评论[作者:阿丁 分类:solr教程 ] Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 fetchInterval ,更新 Tika 到 1.2 版本,更新原创 2013-01-21 00:39:25 · 1266 阅读 · 0 评论 -
bin/nutch crawl log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: /usr/nutc
log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: /usr/nutch1.4/runtime/local/logs/hadoop.log (No such file or directory) 是因为log4j.properties 和其他的应用程序重名的原因。 先用sudo原创 2013-01-20 17:53:32 · 2522 阅读 · 0 评论 -
nutch-1.2和nutch-1.3的配置使用
一年多以前简单试用过nutch,但半途而废,打算再次学习一下。 前几天先去nutch官网下了最新的nutch-1.3版,依照wiki说明,在windows+cygwin+eclipse中完成配置。 http://wiki.apache.org/nutch/RunNutchInEclipse(对应nutch-1.3) http://wiki.apache.org/nutch/Nut转载 2013-01-19 23:12:54 · 1482 阅读 · 0 评论 -
Nutch Cynwin 遇到的问题:Cygpath: can't convert empty path
$ bin/nutch crawl cygpath: can't convert empty path bin/nutch: line 158: C:\Program Files\Java\jdk1.7.0/bin/java: No such file or di rectory bin/nutch: line 268: exec: C:\Program: not found 出原创 2013-01-19 22:55:44 · 6743 阅读 · 1 评论 -
java.io.IOException: The temporary job-output directory file:/usr/nutch1.4/runtime/local/sina/crawld
运行:bin/nutch crawl urls -dir sina -depth 2 -topN 2 出现该问题: java.io.IOException: The temporary job-output directory file:/usr/nutch1.4/runtime/local/sina/crawldb/1061684570/_temporary doesn't exist!原创 2013-01-20 18:18:08 · 2010 阅读 · 1 评论 -
Apache nutch1.5 & Apache solr3.6
第1章引言 1.1nutch和solr Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 Solr拥有像web-services API的独立的企业级搜索服务器。用XML通过HTTP向它添加文档(称为做索引),通过HTTP查询返回XML结果。 1.2研究nutch的原因 可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜转载 2013-01-20 18:29:11 · 1161 阅读 · 0 评论 -
使用Nutch和Solr抓取并索引网页
Nutch和Solr是两个由Apache成员创建的实用工具,你可以使用Nutch抓取网页,使用Solr索引你得到的数据。 除了索引各类网站,这些工具还有很多其他功能,本文将不涉及这些,而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。 本文将不会讨论它们如何工作的大量细节,而会告诉你如何运行一个爬虫和建立索引,我将假设你已经搭建好了tomca转载 2013-01-20 23:25:00 · 751 阅读 · 0 评论 -
若已经用apt-get安装tomcat6了,但是想用自己安装的tomcat7,却老是显示tomcat6
点击http://localhost:8080/,老是显示tomcat5, 即使按照网上的说明配置了tomcat7也还是显示tomcat6的网页 对于这个问题,可以先用sudo apt-get remove tomcat6 进行卸载。 这样再http://localhost:8080/,就显示tomcat7了。原创 2013-01-21 00:17:39 · 638 阅读 · 0 评论