Lucene in Action读书笔记（一）

原创于 2011-05-12 12:01:01 发布 · 146 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#lucene #读书 #互联网 #数据结构

java 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了Lucene索引构建的三个主要步骤：首先将原始数据转换为可识别的Document；其次通过Analysis将文本切分为小词块并进行标准化处理；最后将处理后的数据写入倒排索引。

Understand the process of indexing
1,convert to text
将原始数据转换成lucene可以识别的数据。
可识别的数据转换成Document。Document由lucene自定义的Field组成
2,analysis
会将text内容转化成一些chunks或者tokens。
其中会将内容转成小写格式，使得数据没有大小写之分。
还会将其中的一些高频但是没有意义的词给去掉。例如英文中的a an the in on 等等，中文中类似的有的啊哦等。此类词英文称为stopword

3,Index writing
将analysis后的数据写入到索引（Index）中。
Lucene使用倒排索引结构。现在互联网搜索主流都是使用倒排索引。
但是各个搜索不同的原因是各家都在此结构基础上有各自特色保密的存储技巧或者优化手段。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。