solr弯路篇

最新推荐文章于 2026-01-08 10:27:54 发布

最新推荐文章于 2026-01-08 10:27:54 发布 · 158 阅读

文章标签：

#Solr #Hadoop #lucene #json #OOP

本文探讨了Nutch与Solr结合使用的方法，通过Nutch建立索引并保存文件，利用Solr进行查询并将结果以JSON格式返回。文中提到了针对最新Hadoop版本的兼容性问题，并概述了开发计划。

在改造solr的过程中，发现代码越写越驱近于nutc

h。。。。。再次打开nutch的代码进行研读，发现nutch对于hadoop的支持更为自然(但nutch不支持最新的hadoop0.14版本，只支持到hadoop-0.12版本，如果强行升级会因为hadoop0.14去除了一些方法而失败)。目前想到的方案，用nutch来完成索引的建立和文件的保存，用solr进行查询，将结果暴露为json格式。

需要做的工作:
1.开发nutch的录入分析程序，还可以利用到map/reduce
2.将solr的查询部分改为从hdfs搜索，之前以完成

虽然走了一些弯路，在solr上花费了不少时间，不过总算弄清了lucene,solr,hadoop,nutch，这几者更适合作什么，如何协调会更好