
Lucene
xiayuanfeng
这个作者很懒,什么都没留下…
展开
-
索引 - 前言
此章的基本内容如下 概念上的索引模型 索引的基本操作 在索引的时候,提升文档(Document)和字段(Field)的权重 索引日期,数字和搜索结果排序的字段(Field) 了解和使用影响索引性能和资源消耗的参数 优化索引 理解并发(Concurrency),多线程和锁的问题 高级的索引功能 你想要在硬盘中搜索已存储的文件,或者搜索邮件,网页,甚至是数据库中的数据。Lucen...2010-03-29 11:26:45 · 163 阅读 · 0 评论 -
索引 - 概念上的索引文档(Conceptual document model)
在我们详细讲述Lucene索引API之前,来看看概念模型的内容。首先我们先从Lucene索引和搜索的基础单位开始,文档和字段(Documents and Fields),然后再看看Lucene和现代数据库模型的一些重要不同。 文档和字段 一个文档是索引用来索引和搜索的最小单位。它实际上是一个包含很多字段的容器,依次保存了真正的内容。每个字段都有一个名字来区分它,一个文本或二进制值,以及一...2010-03-29 16:26:27 · 130 阅读 · 0 评论 -
web爬虫
这篇文章主要是对web爬虫有个大概的认知。 概览web爬虫 web爬虫主要功能是从web中发现,下载以及存储内容。广泛应用于各种搜索引擎中。 一个典型的web爬虫主要由以下的部分组成: 能被爬虫识别的URL库。 文档下载模块,主要用于从web中下载内容。 文档解析模块,用于解析下载文档中的内容,如解析HTML,PDF,Word等等。这个模块还要提取网页中的URL和一些对于...2010-11-20 02:18:08 · 214 阅读 · 0 评论