
【**Search Engine】
文章平均质量分 54
iteye_5013
这个作者很懒,什么都没留下…
展开
-
【Lucene】store包Directory
说明lucene的版本是3.0.3结构及类图文件类存储,隐藏了实现存储的细节。-Abstract Directory -Abstract FSDirectory -SimpleFSDirectory -NIOFSDirectory -MMapDirectory -RAMDirectory -FileSwitchDirectoryDirectory...原创 2011-12-11 17:23:05 · 288 阅读 · 0 评论 -
tokenize和tokenizer到底怎么翻译?
在编写词法分析器(Lexer)或语法分析器(Parser)的时候,除了Lexer和Parser这两个词会经常使用外,tokenize和tokenizer也会经常出现,基本上所有涉及到词法解析的源码都会用到tokenize。 它的命名来源于使用英文的开发者,否则让我这个习惯使用中文的人去想这个命名,我可能会用其它简单的词来代替,不会这么形象化,所以啊,语言文化的不同,可能会导致思维方式...原创 2012-03-28 10:32:35 · 1420 阅读 · 0 评论 -
lucene.search.Similarity
Similarity defines the components of Lucene scoring. Overriding computation of these components is a convenient way to alter Lucene scoring. Suggested reading: Introduction To Information...原创 2012-04-20 10:31:44 · 282 阅读 · 0 评论 -
lucene打分机制的研究
提出问题目前在查询时,会将得分小于1的查询结果过滤掉。本文将回答如下问题:lucene的打分机制是什么?得分小于1大于1说明什么问题?能否认为得分小于1的结果是部分匹配查询条件而大于1是完全匹配?根据查询结果的得分小于1来过滤结果是否合理?会不会产生新的问题? 数字后加上"*"对打分有何影响? lucene的打分机制简介...原创 2012-04-22 17:46:14 · 237 阅读 · 0 评论 -
lucene.search.Weight
org.apache.lucene.search Class Weightjava.lang.Object org.apache.lucene.search.WeightAll Implemented Interfaces:SerializableDirect Known Subclasses:BooleanQuery.BooleanWeight, Cons...原创 2012-04-25 15:39:57 · 296 阅读 · 0 评论 -
【Lucene】查询term后加上'*'对打分的影响
BooleanWeight里sumOfSquaredWeights实现 @Override public float sumOfSquaredWeights() throws IOException { float sum = 0.0f; for (int i = 0 ; i < weights.size(); ...原创 2012-04-25 18:14:43 · 146 阅读 · 0 评论 -
【工作】日志检索结果的排序改进分析
下图是现在生产环境的部署图,索引文件分布在70-73服务器上,这4台服务器在一个集群里,每个节点的search service会查询该节点上的索引文件(阶段1),然后在71或者72服务器的query client service里获得汇合后的数据(阶段2)。 阶段1和阶段2都有排序,其中阶段1的排序可以基于Lucene的排序机制来完成,阶段2的排序可以通过相关排序算法完...原创 2012-04-27 18:07:11 · 119 阅读 · 0 评论 -
【Lucene】lucene查询Query对象
PrefixQuery前缀查询。如 test* 会匹配出 test/tests/tester。例如:目录(category)通常都体现一个层次结构,如/tec/it/java 或 /tec/it/db 或 /tec/it/java/jvm 等等目录,如果想要搜索某个目录(如/tec/it或者/tec/it/db),可以构造prefix query。 WildcardQuery...原创 2012-05-08 18:41:25 · 121 阅读 · 0 评论 -
优秀文章汇总
搜索引擎技术之概要预览http://blog.youkuaiyun.com/v_july_v/article/details/6827391原创 2012-05-08 18:48:56 · 114 阅读 · 0 评论 -
【Lucene】更合理地使用Document和Field
writer = ...; //#1PreparedStatement pstmt = conn.prepareStatement(selectSql);ResultSet rs = pstmt.executeQuery();Document doc = null;while (rs.next()) { doc = new Document(); //#2 doc.a...原创 2012-03-27 09:39:58 · 262 阅读 · 0 评论 -
【Lucene】构建索引
Lucene索引的过程是什么?step1 收集待索引的原文档从数据库、web等获取原文档。 step2 将原文档交给分词组件(Tokenizer)此过程叫做Tokenize,得到的结果称为Token。 会做如下几件事:1.将文档分成一个个独立的单词2.去除标点3.去除停词(stopword) step3 将得到的Token交给语言处理组件(...原创 2012-03-17 23:16:42 · 132 阅读 · 0 评论 -
信息检索类小程序
1.对四大名著txt实现索引和搜索功能2.原创 2012-03-17 00:37:24 · 715 阅读 · 0 评论 -
【Lucene】store包FSDirectory
源码中涉及以下知识点:1.java.security.MessageDigest2.org.apache.lucene.store.LockFactoryorg.apache.lucene.store.FSLockFactory见FSDirectory构造3.32bit与64bit操作系统4.sync中RandomAccessFile、FileDescriptor5.g...原创 2011-12-24 13:39:30 · 287 阅读 · 0 评论 -
【Lucene】store包SimpleFSDirectory
store包SimpleFSDirectory原创 2011-12-24 23:43:52 · 384 阅读 · 0 评论 -
【Lucene】index包IndexWriter
Q1:IndexWriter作用是什么? Q2:索引过程?原创 2011-12-25 01:50:37 · 199 阅读 · 0 评论 -
【Lucene】How to make indexing faster
http://wiki.apache.org/lucene-java/ImproveIndexingSpeed原创 2012-02-16 14:54:52 · 103 阅读 · 0 评论 -
【Lucene】搜索的核心类简介
注:Lucene版本为3.4 IndexReaderIndexSearcherTermQueryParserQueryTermQueryTopDocsScoreDoc 搜索的基本类:Directory IndexReader IndexSearcher 图1 搜索使用到的各个类的相互关系 QueryParserQueryPars...原创 2012-03-05 18:48:33 · 134 阅读 · 0 评论 -
【Lucene】lucene的评分机制
测试环境里查询条件1065800714,为什么ScoreDoc.score小于1呢?这个值是怎么算出来的?输入1065800714*,ScoreDoc.score变成了1注:在生产环境里大于1而在测试环境里却小于1,生产和测试环境唯一区别是测试环境数据量很小。ScoreDoc.score——The score of this document for the query. ...原创 2012-03-07 16:24:00 · 229 阅读 · 0 评论 -
Information Retrieval
http://wiki.apache.org/lucene-java/InformationRetrievalBooks Introduction to Information Retrieval, Manning, Raghavan & Schütze, 2007 Managing Gigabytes [KevinBurton] I can vo...原创 2012-03-13 22:50:07 · 270 阅读 · 0 评论 -
【Lucene】Scoring
http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/scoring.html#AlgorithmIntroductionScoringFields and DocumentsScore BoostingUnderstanding t...原创 2012-03-13 23:47:39 · 159 阅读 · 0 评论 -
【Lucene】建索引核心类介绍
IndexWriter负责创建新索引或打开已有索引,以及对索引增,删,改。 Directory提供对文件的读写操作以及文件锁的管理。该类是个抽象类。 SimpleFSDirectory:基于java.io.*访问文件,不支持多线程读(同步锁,注:SimpleFSDirectory-->SimpleFSIndexInput-->readInternal(...原创 2012-06-08 17:28:03 · 142 阅读 · 0 评论