在改造solr的过程中,发现代码越写越驱近于nutc
<wbr></wbr>h。。。。。再次打开nutch的代码进行研读,发现n<wbr></wbr>utch对于hadoop的支持更为自然(但nutch<wbr></wbr>不支持最新的hadoop0.14版本,只支持到had<wbr></wbr>oop-0.12版本,如果强行升级会因为hadoop<wbr></wbr>0.14去除了一些方法而失败)。目前想到的方案,用n<wbr></wbr>utch来完成索引的建立和文件的保存,用solr进行<wbr></wbr>查询,将结果暴露为json格式。
需要做的工作:
1.开发nutch的录入分析程序,还可以利用到map<wbr></wbr>/reduce
2.将solr的查询部分改为从hdfs搜索,之前以完<wbr></wbr>成
虽然走了一些弯路,在solr上花费了不少时间,不过总<wbr></wbr>算弄清了lucene,solr,hadoop,nut<wbr></wbr>ch,这几者更适合作什么,如何协调会更好
需要做的工作:
1.开发nutch的录入分析程序,还可以利用到map<wbr></wbr>/reduce
2.将solr的查询部分改为从hdfs搜索,之前以完<wbr></wbr>成
虽然走了一些弯路,在solr上花费了不少时间,不过总<wbr></wbr>算弄清了lucene,solr,hadoop,nut<wbr></wbr>ch,这几者更适合作什么,如何协调会更好
本文探讨了Nutch与Solr结合使用的方法,通过Nutch建立索引并保存文件,利用Solr进行查询并将结果以JSON格式返回。文中提到了针对最新Hadoop版本的兼容性问题,并概述了开发计划。
4133

被折叠的 条评论
为什么被折叠?



