nutch-1.0 的分布式查询部署

本文介绍Nutch 1.0版本如何实现分布式查询部署,包括主节点与子节点的具体配置步骤,以及如何启动分布式查询服务。同时指出了在实际应用中存在的几个问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

nutch -1.0 的分布式 查询部署

nutch-1.0集成了hadoop的mapreduce 实现分布式爬虫方式,抓取的网页及索引等都存放在HDFS上,但hdfs 用于查询是不切实际的,所以建议copy到本地 之后做搜索 查询。但如果索引文件 很多,索引数据 量大,在一台机器上部署查询势必很慢,这时可以考虑分布式查询方式,将索引分散在多个机器中;

下面是分布式查询方式的部署方式:

首先定义两点:
1. search-servers.txt 所在的机器为主节点,设IP为172.16.100.1;
2. search-servers.txt 中定义的各个节点为subserver,作为查询服务 器提供者,这里定义两个:172.16.100.2及172.16.100.3;

主节点(172.160100.1)的安装
1. 安装tomcat,细节略去,安装目录为:/usr/local/tomcat。
2. 下载nutch-1.0.tar.gz,并解压缩,设解压缩到/data /nutch;
3. 将/data/nutch/nutch-1.0.war解压到tomcat的webapps目录下,即/usr/local/tomcat/webapps/nutch;
4. 修改 /usr/local/tomcat/webapps/nutch/WEB-INF/classes/nutch-site.xml,补充1个属性定义:
<property>
<name>searcher.dir</name>
<value>/data/winter/search-dir</value>
<description> Path to root of crawl. 即 search-servers.txt 所在的父目录
</description>
</property>

subserver(172.16.100.2及172.16.100.3)的配置:
1. 设subserver配置地址为: /data/search-server
2. 将/data/nutch下的bin、conf、lib、plugin s等拷贝到/data/search-server下;
3. chmod +x bin,使得bin下的脚本可执行;
4. 在conf/nutch-site.xml中添加两个属性:
<property>
<name>plugin.folders</name>
<value>/data/search-server/plugins</value>
<description>Directories where nutch plugins are located.
</description>
</property>

<property>
<name>searcher.dir</name>
<value>/data/indexes</value>
<description> Path to root of crawl.
</description>
</property>

searcher.dir指向本地的索引文件路径 ,可以包含多个index,但每个index下都必须包含index.done文件。

配置完毕,然后把hdfs上的索引分散拷贝到subserver中(为简单起见,可以先拷贝到一个subserver)。

启动方法:
1. 在主机器上编辑search-servers.txt,指定所有的subserver的IP及端口号,如:
172.16.100.1 9999
172.16.100.2 9999

2. 在各个subserver上启动DistributedSearch.Server进程:nohup bin/nutch server 9999 > server.log 2>&1 &;
3. 启动172.16.100.1上的tomcat;
4. 测试以下地址:http://172.16.100.1:8080/nutch ,为搜索首页;

如果测试不成功,可以从以下两个日志中分析:
1. subserver上的 server.log ;
2. 主节点上的tomcat日志;

nutch-1.0的分布式查询只能作为研究学习用,应用在实际搜索阶段有以下几个问题:
1. 搜索的idf信息只是各个subserver相对的idf,未参考整体的idf,这个在nutch jira中有人提过,也有提交过一些patch,可以参考下;
2. DistributedSegmentBean 中getSummary(HitDetails[] detailsArr, Query query)方法会导致summary乱序,修改下源代码可以解决;
3. HitDetails 的write 及read方法,用UTF方法传输field 及value,如果长度超过65536,会出现 UTFDataFormatException异常,换Text吧;

基于Spring Boot搭建的一个多功能在线学习系统的实现细节。系统分为管理员和用户两个主要模块。管理员负责视频、文件和文章资料的管理以及系统运营维护;用户则可以进行视频播放、资料下载、参与学习论坛并享受个性化学习服务。文中重点探讨了文件下载的安全性和性能优化(如使用Resource对象避免内存溢出),积分排行榜的高效实现(采用Redis Sorted Set结构),敏感词过滤机制(利用DFA算法构建内存过滤树)以及视频播放的浏览器兼容性解决方案(通过FFmpeg调整MOOV原子位置)。此外,还提到了权限管理方面自定义动态加载器的应用,提高了系统的灵活性和易用性。 适合人群:对Spring Boot有一定了解,希望深入理解其实际应用的技术人员,尤其是从事在线教育平台开发的相关从业者。 使用场景及目标:适用于需要快速搭建稳定高效的在线学习平台的企业或团队。目标在于提供一套完整的解决方案,涵盖从资源管理到用户体验优化等多个方面,帮助开发者更好地理解和掌握Spring Boot框架的实际运用技巧。 其他说明:文中不仅提供了具体的代码示例和技术思路,还分享了许多实践经验教训,对于提高项目质量有着重要的指导意义。同时强调了安全性、性能优化等方面的重要性,确保系统能够应对大规模用户的并发访问需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值