
搜索引擎
zengbin164
记录工作中的点点滴滴
展开
-
nutch-1.2部署搜索
nutch爬虫是基于lucene搜索的如果想抓取整个公网,配置如下环境:tomcat7 64位8C8G的linux服务器为了防止中文搜索乱码修改tomcat的配置文件vi /usr/alibaba/tomcat7/conf/server.xml 找到http协议的connector并增加URIEncoding="UTF-8" useBodyEncodingForURI="true" connectionTimeout="20000" redirectP原创 2010-12-08 15:42:00 · 1078 阅读 · 0 评论 -
Lucene倒排索引原理(转)
Lucene倒排索引原理(转) Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施a.我们现在有的是文章内容,即一个字符串,转载 2010-11-07 22:32:00 · 504 阅读 · 0 评论 -
Lucene文件格式和索引过程分析
http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661439.html原创 2010-11-07 22:35:00 · 690 阅读 · 0 评论 -
提高lucene索引速度
前段时间针对线上项目的搜索引擎索引和搜索做了部分调优,效果还是比较明显,结合官方文档和我个人的总结做个分享吧一、如果提高构建索引速度 1、明确当前性能瓶颈确实是lucene构建索引引起 这个问题需要借助一定的三方性能监控工具,我当时在调优时使用的监控工具是sysstat,下载地址:http://sebastien.godard.pagesperso-orange.fr/download.html ,可以选择你需要的版本,具体使用可以google。通过这个工具对比观察服务器在构建索引和非构建原创 2010-11-08 20:10:00 · 3681 阅读 · 0 评论