
搜索引擎
我就算饿死也不做程序员
欢迎关注同名公众号:"我就算饿死也不做程序员"。
交个朋友,一起交流,一起学习,一起进步。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lucene源码(三):全文检索的底层原理
文章目录IndexSearchersearchAfterCollectorManagersearchcreateNormalizedWeightcreateWeightTermQuerycreateWeightTermWeightTFIDFSimilarityBooleanScorer Lucene源码(一):分词器的底层原理 Lucene源码(二):文本相似度TF-IDF原理 IndexRead...原创 2020-04-13 21:48:55 · 1252 阅读 · 0 评论 -
Lucene源码(二):文本相似度TF-IDF原理
Lucene中TF-IDF的计算公式与普通的TF-IDF不一样。学习之后,感觉Lucene的计算方法更加合理,考虑得更加周全。 q:query,即搜索内容,例如:github d:document,即文档内容,例如:i like github 即我们的搜索内容"github"跟文档内容"i like github"的TF-IDF值(相似度)。TF-IDF值越高,搜索的内容与文档的匹配度越高。 t...原创 2020-04-13 21:37:00 · 763 阅读 · 0 评论 -
Lucene源码(一):分词器的底层原理
文章目录官方DemoQueryTermStandardAnalyzer源码分析QueryBuilder.createFieldQueryStandardTokenizerStandardTokenizerImpl 官方Demo 我们先看官方提供的demo代码,从使用demo运行一遍,看看分词之后的结果,然后再对源码进行研究。分词的核心代码其实就是这几句: Analyzer analyzer = n...原创 2020-04-07 21:23:26 · 1115 阅读 · 0 评论