
lucene+nutch
lifeneedyou
这个作者很懒,什么都没留下…
展开
-
lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档...
1运行环境lucene2.4.1,下载地址:http://apache.etoak.com/lucene/java/lucene-2.4.1.zip 2Lucene 简介(文档参照http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/) Lucene 是一个基于 Java 的全文信息检索工具包...原创 2009-05-07 13:52:25 · 173 阅读 · 0 评论 -
lucene+nutch学习笔记一:搜索引擎的一些常识
1常用搜索引擎 搜索引擎是我们现在网络生活中已经离不开的东西,能上网的人基本上都会用它。目前我们用的比较多的搜索引擎是google,baidu这两个,程序员一般都有google,中国人大部分用baidu,google的英文搜索做的比较好!baidu的中文分词比较强,虽然它有时候应为一些商业的目的性不怎么受欢迎。。。。,雅虎其实也是比较受欢迎的。 2其他的搜...原创 2009-05-21 10:00:54 · 134 阅读 · 0 评论 -
lucene+nutch学习笔记之二:搜索引擎原理
整个互联网可以看成是一个蜘蛛网,相互关联,可以感觉冒一个线索,找到其他的分支。搜索引擎主要包括这几个步骤: 1爬虫抓取互联网的网页。 2对网页内容进行分析 3对分析后的内容建立索引 4网页检索结果排序 5提供接口来交互。1网页html源码的获取(WebHttpClient) 写道package com.lucene.downpage;i...原创 2009-05-26 13:55:59 · 148 阅读 · 0 评论 -
lucene+nutch学习笔记四:搜索引擎信息索引
在实际的生活中,Nutch只能从网络上收集网页,而对网页本身的分析却不能很好的处理。搜索引擎普遍采用全文检索技术,平常的word的字处理工具的查询采用的是顺序扫描文件,这种做法效率比较低,遇到大型的文件则根本就不使用。所以出现了索引这个技术。 概括来说: 索引就是给一个文本内容按照一定的格式进行数据重排,使其便与查找。索引技术的核心是倒排索引的结构。倒排索引(Inv...2009-06-01 13:55:49 · 149 阅读 · 0 评论 -
lucene+nutch学习笔记五:创建一个简单的索引
package chapter5;import java.io.IOException;import java.util.Date;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.doc...2009-06-01 14:15:27 · 121 阅读 · 0 评论 -
lucene+nutch学习笔记六:lucene使用需要注意的地方
1尽量减少不必要的存储。 基本的办法是在添加特定的文档时,使用不存储原始内容的Store.NO,或则压缩存储Store.COMPRESS 2不需要检索的内容不要建立索引, 3非格式化的文本需要提前转化,比如时间货浮点数字。 4需要整体存方的内容不要分词,比如readme.txt 5注意对索引参数的优化 主要用下面几个函数: ...原创 2009-06-02 15:58:47 · 108 阅读 · 0 评论