windows下nutch初探

最新推荐文章于 2022-04-04 14:47:33 发布

原创最新推荐文章于 2022-04-04 14:47:33 发布 · 3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#windows #domain #java #测试

search engine 专栏收录该内容

29 篇文章

订阅专栏

本文介绍了如何在WinXP+cygwin环境下配置Nutch 0.7.1进行网页爬取。通过具体步骤演示了从下载、解压Nutch到设置环境变量、配置爬取目标及运行命令的全过程。

运行crawl 环境：winxp+cygwin+ nutch0.7.1

step 1)
下载nutch0.7.1后解压到比如e:/nutch-0.7.1 并设置环境变量JAVA_HOME

step2)
在e:/nutch-0.7.1建立一个文件,名为urls,内容为blog.youkuaiyun.com/pwlazy,表示待爬的网页

step3)
将e:/nutch-0.7.1/conf下的crawl-urlfilter.txt修改

# accept hosts in MY.DOMAIN.NAME

变为

# accept hosts in MY.DOMAIN.NAME

+^http://blog.youkuaiyun.com/pwlazy

4)打开cygwin,运行命令

cd /cgydrive/e/nutch-0.7.1

bin/nutch crawl urls -dir crawled -depth 3 >& crawl.log

关于第二行命令的解释网上到处都是,就不再赘述了

以上4步完成 crawl

为了测试上面的结果,可利用nutch-0.7.1下的nutch-0.7.1.war,war中提供了简单的搜索页

补充说明:
下载nutch-0.8使用,会出现一堆错误,网上有人说是因为hadoop-0.4.0.jar的原因,反正我不知道,如果哪位知道,希望不吝赐教.不得已,下载了nutch-0.7.1,很顺利就搞定

7 条评论

dengyf 2006.09.11
请问注入URL是,我在怎么不执行，是0.8版本 命令行: ./nutch inject db urls

dengyf 2006.08.24
我用nutch 0.8出现一下错误 命令是 ./nutch crawl urls -dir crawldb -depth 3 -topN 50 urls 是目录，urls中有个文件nutch，内容是“http://www.apache.org/” 你说的一是，二是都改了 出现的错误为： Exception in thread "main" java.io.IOException:job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:375) at org.apache.nutch.crawl.Injector.inject(Injector.java:138) at org.apache.nutch.crawl.Crawl.main(Crawl.java:105)

dengyf 2006.08.24
我是在linux系统下做的出现的错误

pwlazy 2006.08.24
我试过了没问题,是不是你的某些文件的路径放的不对,你看看我刚写的"windows下nutch0.8初探"

江南白衣 2006.08.08
nutch 0.8没问题的，可能你看的是0.7.2的安装文档, 应该看http://lucene.apache.org/nutch/tutorial8.html，要注意两点： 一是 crawl命令里的urls参数从指定文件变为了指定目录，即原来的urls 要改存到urls/springside 里 二是 nutch-default.xml里http.agent.name属性默认为空，必须在此或者在nutch-site.xml中为该属性设值，否则会出错。