
搜索引擎
linphie
这个作者很懒,什么都没留下…
展开
-
Solr安装
注意:jdk版本跟solr跟tomcat版本,还有机器系统64还是32位都要相互对应上 Solr安装 Solr(http://lucene.apache.org/solr),Apache Lucene项目的子项目,是一个基于Lucene的Java搜索引擎服务器。 Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语,更重要的是,Solr 创建的索引与 L原创 2015-01-01 21:23:27 · 328 阅读 · 0 评论 -
Nutch策略研究
nutch现在的版本专注于爬取网页部分,搜索部分交给solr, elasticsearch等专门的开源项目了。 Nutch爬虫工作策略 累积式抓取(cumulative crawling): 指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取的策略可以保证抓取到相当规模的网页集合。但由于Web数据的动态特性,集合中网转载 2015-01-01 22:07:20 · 578 阅读 · 0 评论