
全文检索
wanhf11
无。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
倒排索引原理
单词文档矩阵(搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构)倒排索引基本概念文档(Document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖更多种形式,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档。文档集合(Document Collection):由若干文档构成的集合称之为文档集合。比如原创 2016-03-11 21:32:14 · 2732 阅读 · 0 评论 -
Lucene 入门和简单封装
管理package com.whf.demo;import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Set; import java.util.concurren原创 2016-03-06 09:17:52 · 979 阅读 · 0 评论 -
Lucene Suggest的使用
参考package com.whf.suggest;import java.io.Serializable;/** * 产品类 * * @author Lanxiaowei * */ public class Product implements Serializable { /** 产品名称 */ private String name; /** 产品图片 *原创 2016-03-25 10:42:13 · 998 阅读 · 0 评论 -
实现实时索引基本原理
参考1 参考2 参考3原创 2016-08-15 17:30:52 · 603 阅读 · 0 评论 -
Lucene 分页排序
package org.digdata.swustoj.sort;import org.apache.lucene.search.Sort; import org.apache.lucene.search.SortField;/** * Created by wwhhff11 on 16-8-15. */ public class LuceneSortFactory { /**原创 2016-08-15 21:41:53 · 1459 阅读 · 0 评论 -
Lucene 近实时索引
参考1 参考2 参考3原创 2016-08-18 10:11:44 · 435 阅读 · 0 评论 -
Lucene 面试
lucene 针对它的搜索方式有哪些?词项查询(TermQuery)/布尔查询(BooleanQuery)/短语查询(PhraseQuery)/范围查询(RangeQuery)/百搭查询(WildardQuery)/FuzzQuery(模糊)索引原理0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:H转载 2016-09-21 10:34:06 · 8062 阅读 · 1 评论 -
Lucene 分词的过程
创建索引的过程: 索引原文件(Document) 将原文档传给分词组件(Tokenzer) 1.分割单词 2.去除标点 3.停用词过滤3.将词元(Token)传给语言组件(Linguistic Processor)1.变为小写Cars->cars 2.将单词缩为词根cars->car 将单词(Term)传给索引组件(Indexer) 1.创建词典 2.按字典排序 3.合并相同的词成为文档倒排的链表原创 2016-03-24 15:05:24 · 416 阅读 · 0 评论