Lucene的学习第三篇——分词
Lucene创建索引—分词
分词主要介绍这几个问题
分词是什么?
分词干嘛?
分词怎么分?
疑问:
看完这篇,带着疑问看下一篇
下一篇的代码中,能找到aaabbb.txt文档,但是我们不能找到aaabbb文档,好像说明fileName只能进行了精确匹配。但是不能找到“XXXX.txt”文档,
说明不是精确匹配,而是在索引库中“全文检索.txt”或者“全文检索.txt”,” spring”这些词的索引。
同理:名字都这么麻烦,如果要搜索内容,岂不是更麻烦。所以要进行分词。
下篇文章第一段代码中:使用的是官方推荐的标准分词器
Analyzer analyzer=new StandardAnalyzer();//标准的分词器
分词就是将一句话,或者一段话,或者长词,分成一个一个的词语。比如:“全文检”索:分成:“全文”、“检索”、“全文检索”。
分词干嘛?
分词后,就是对每个词建立索引,比如: “全文”、“检索”、“全文检索”。都建立了索引,那么你搜任意的这三个词语都能找到文档,同理,将文档内容分词,只要输入任意词。就能找到该文档。
怎么分?
分词流程
举例说明:
原文档内容(摘自官网):
Lucene is a Java full-text search engine. Lucene is not a complete
application, but rather a code library and API that can easily be used
to add search capabilities to applications.
分析后得到的词:
luce