
搜索引擎
文章平均质量分 83
商云
梦想紧握手中,不断前进!
展开
-
MyEclipse下配置heritrix 1.12.1步骤
虽然前面已经有过配置了,但我感觉这篇文章还不错,就转帖了,说不定还有用处呢,呵呵……1. 下载heritrix 1.12.1-src.zip和heritrix 1.12.1.zip。 2. 新建空的java项目(注意不是WEB项目), 命名为heritrix。 3. 把heritrix-1.12.1-src/src/java/目录下的org、st和com文原创 2008-12-10 20:50:00 · 679 阅读 · 0 评论 -
lucene搜索引擎技术的分析与整理
1. 引言编写目的介绍开源软件搜索引擎——lucene的各个实现的功能,性能,以及代码分析1.2. 背景分析的系统名称Lucene该开源主页http://lucene.apache.org/开发语言JAVA该系统的分析者zzpchina该系统作者简介Lucene的贡献者Doug转载 2008-12-20 10:57:00 · 1791 阅读 · 0 评论 -
基于Java的全文索引引擎Lucene简介
关键词:Lucene java full-text search engine Chinese wordsegment内容摘要:Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用转载 2009-03-04 00:37:00 · 1001 阅读 · 0 评论 -
MyEclipse下配置heritrix 1.12.1步骤
1. 下载heritrix 1.12.1-src.zip和heritrix 1.12.1.zip。 2. 新建空的java项目(注意不是WEB项目), 命名为heritrix。 3. 把heritrix-1.12.1-src/src/java/目录下的org、st和com文件夹拷贝到heritrix/src目录下; 4. 把heritrix-1.12原创 2008-12-16 13:42:00 · 1238 阅读 · 0 评论 -
Lucene 及 Lucene.net 国内外的一些学习资源汇总
目前互联网上关于Lucene 及 Lucene.net 的文章很多,看了一些,感觉绝大部分还是偏向于应用,真正深入探讨其核心算法的文章不是太多,最近打算深入研究一下Lucene.net,把一些关键技术点的核心算法搞清楚。在开始做这个工作之前,先对目前互联网上可以利用的资源做个汇总,算是抛砖引玉吧,还望网友们多来补充,大家共同学习! lucene 官方网站, Luncene.net 官方网转载 2008-12-11 15:51:00 · 1095 阅读 · 0 评论 -
搜索引擎笔记
一.搜索方法:1.把搜索范围限定在网页标题中-intitle,特别关键的部分,用“intitle:”领起来。 如找林心如的写真,则写真 intitle:林青霞 注意:intitle:和后面的关键词之间,不要有空格2.把搜索范围限定在特定站点中:site 要到CFan网站去看IT产品,就可以这样查询:mp3 site:cfan.com.cn。注转载 2008-12-11 15:48:00 · 970 阅读 · 0 评论 -
深入学习Heritrix---解析Frontier(链接工厂)
Frontier是Heritrix最核心的组成部分之一,也是最复杂的组成部分.它主要功能是为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作.并且为了提高效率,它在内部使用了Berkeley DB.本节将对它的内部机理进行详细解剖.在Heritrix的官方文档上有一个Frontier的例子,虽然很简单,但是它却解释Frontier实现的基本原理.在这里就不讨论,有兴趣的读者可以参考原创 2008-12-11 15:35:00 · 1283 阅读 · 0 评论 -
Lucene的使用(一)
Lucene是一个全文检索类库(Library),基本原理是索引检索.在搜索引擎领域,Lucene的影响非常大.在这里就不介绍了,这方面网上文章很多.这里主要通过一个本地文件检索程序来简单学习一下Lucene的基本使用. 利用Lucene来建立检索系统主要有以下几步:首先是建立索引,然后再对索引进行检索,当然分析器贯穿始终.(1)建立索引 CodeCode highl原创 2008-12-11 15:46:00 · 722 阅读 · 0 评论 -
Lucene分词初探---LetterTokenizer
关于分词就不多介绍了,园子里很多这样的文章.birdshover就写了一些关于分词的文章.在这里我主要深入Lucene分词工具的内部算法,希望能与大家一起交流. Lucene与分词有关的类的结构图如下:(图片引自:http://www.cnblogs.com/birdshover/archive/2008/08/28/1279044.html)在本节主要讨论LetterTokenize转载 2008-12-11 15:42:00 · 1034 阅读 · 0 评论 -
Lucene索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两原创 2008-12-10 20:52:00 · 568 阅读 · 0 评论 -
深入学习Heritrix---解析CrawlController
当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){原创 2008-12-11 15:44:00 · 2934 阅读 · 1 评论 -
深入学习heritrix---体系结构(Overview of the crawler)
Heritrix采用了模块化的设计,它由一些核心类(core classes)和可插件模块(pluggable modules)构成。核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。(一)heritrix的体系结构图: (二)架构分析CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从原创 2008-12-11 15:44:00 · 2942 阅读 · 1 评论 -
深入学习Heritrix---解析处理器(Processor)
本节解析与处理器有关的内容.与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类),ProcessorChainList(处理器链列表).它们之间的关系如下:下面将解析该图. (1)Processor代表一个处理器.CodeCode highlighting produced by Actipro Code原创 2008-12-11 15:43:00 · 1652 阅读 · 0 评论 -
Lucene 中自定义排序的实现
使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们就来看看在Lucene中如何实现自定义排序功能. Lucene中的自定义排序功能和Java集合中的自定义排序的实现方法差不多,都要实现一下比较接口. 在Java中只要实现Compar转载 2008-12-26 21:38:00 · 2284 阅读 · 1 评论