
Nutch-java
badman250
专注分享IT知识技能
展开
-
1.搜索之路——Nutch与Lucene
1.搜索之路——Nutch与Lucene 1 关于搜索引擎 概念的东西网上一大堆,蛤蟆稍微提炼一下。 搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等原创 2016-08-06 21:01:57 · 30419 阅读 · 0 评论 -
2.搜索之路——Nutch搭建
2.搜索之路——Nutch搭建 1 官方连接和下载地址 https://nutch.apache.org/ https://nutch.apache.org/downloads.html 2 下载后解压 蛤蟆此处使用的是windows. 解压压缩包apache-nutch-2.3.1-src.gz 得到如下文件 build.xml CHANGES.txt c原创 2016-08-06 21:03:02 · 30646 阅读 · 0 评论 -
3.搜索之路——solr
3.搜索之路——solr Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富原创 2016-08-06 21:04:35 · 30439 阅读 · 0 评论 -
4.搜索之路——solr部署到Tomcat
4.搜索之路——solr部署到Tomcat 上节中,已将solr进行了启动,启动后对外提供了WEB服务。那如何将solr部署在tomcat上呢? 从Solr5.0开始,Solr不再发布为在任何Servlet容器中部署的“war”Web应用程序包(Web Application Archive)。 1. /server/solr-webapp/下的webapp复制到Tomc原创 2016-08-07 00:28:02 · 30459 阅读 · 0 评论 -
5.搜索之路——solr与lucene和nutch关系
5.搜索之路——solr与lucene和nutch关系 搜索引擎所涉及到的技术包括数据结构、数据分析、数据处理、数据存储及搜索等,这些技术统称为数据检索(Information retrieval, IR)。搜索引擎的种类众多,用途各异. lucene apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术原创 2016-08-07 00:28:58 · 30968 阅读 · 0 评论 -
6.搜索之路——solr使用
6.搜索之路——solr使用 solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库原创 2016-08-07 00:29:44 · 30925 阅读 · 0 评论