一、总论
根据http://lucene.apache.org/java/docs/index.html 定义:
"Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform."
Lucene 是一个高效的,基于Java 的全文检索库。
所以在了解Lucene之前要费一番工夫了解一下全文检索。
那么什么叫做全文检索呢?这要从我们生活中的数据说起。
我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。
- 结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等。
- 非结构化数据: 指不定长或无固定格式的数据,如邮件,word文档等。
当然有的地方