nutch1.2测试

最新推荐文章于 2025-06-06 21:12:14 发布

周天亮

最新推荐文章于 2025-06-06 21:12:14 发布

阅读量571

点赞数

文章标签： hadoop nutch java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/erliang20088/article/details/45789681

版权

上一篇介绍的是环境的搭建，这一篇继续上一篇的步骤，介绍一下对于环境搭建起来之后测试和使用问题。

1、查看生成的文件，如果命令执行成功的话，在你指定的dir_name中，你会发现5个文件夹，分别是：crawldb、linkdb、segments、indexs、index,各自作用为：

crawldb和linkdb：是为nutch抓取数据的爬虫使用的，包话创建和增加新数据

segments:包括抓取下来的数据文件，一般是看不清里边居的，经过nutch的处理

indexs:放的分索引

index:放的是各个indexs目录分索引的一个统一索引，也就是说用的时候是用index中的。

2、通过了第一步说明抓取和建立索引已经完成了，可以进行测试了，有两种方法，用命令行形行 nutch org.apache.nutch.crawl.Crawel key_words的形式或是用tomcat的网页形来看的，我们选择后者，比较直观些。

在window上安装tomcat是很简单的了，就不多说了，然后在nutch1.2的发布版中的根目录中可以发现nutch-1.2.war的war包，是一个nutch测试的demo案例，把拷贝至tomcat的webapp中，启动或重启tomcat就可以了，之后，进入解压后的nutch-1.2中的conf的nutch-site.xml中，添加两个属性,

<property>

<name>http.agent.name</name><value>自定义随便的名字</value>

<name>searcher.dir</name><value>nutch抓取网页后所生成的指定的那个目录(就是nutch命令中-dir dirName 的dirName)</value>

</property>

3、重启一下tomcat之后，在浏览器中输入相应的地址查看，http:Ip_address:port/nutch-1.2/就可以了，若能看到那个搜索界面你就成功大半了。输入相应的你搜索网页的关键字进行搜索，一般是可以相应结果的，若没有的话，可能是你的tomcat目录有点问题，就是nutch的一个bug吧，不允许有空格在tomcat的安装目录中，注意一下就好了。

4、对中文的支持，是tomcat的字符集问题，进入tomcat的安装目录中的conf下的server.xml，有个connector属性，其中有对应的端口等，在其中加个URIEncoding="UTF-8"就可以进行中文检索了。即

<Connector port="80" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443" URIEncoding="UTF-8" />

至此已经完了，如果出现了理想中的界面的话，就祝贺你了，当然问题是难免的，还有问题的话，可以留言进行交流。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。