
分布式搜索
文章平均质量分 86
iterate7
阳春布德泽,咱能生光辉?
百川东到海,不能复西归,
少壮要努力,以免徒伤悲!
展开
-
布尔模型(Boolean Model)
布尔模型(Boolean Model)介绍最早的IR模型,也是应用最广泛的模型;目前仍然应用于商业系统中;Lucene是基于布尔(Boolean)模型的。布尔模型描述文档D表示:一个文档被表示为关键词的集合查询式Q表示:查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序。匹配F:一个文档当且仅当它能够满足布尔查询式时,才将其检索出来。原创 2017-08-16 08:33:31 · 14272 阅读 · 2 评论 -
lucene检索得分模型
得分机制和思想对于搜索,一般包括从库里通过query搜索出docs并排序。 本质上是一个排名问题,检索的话比较简单,可以通过倒排文档的思路,直接通过词找到包括该词的文档(最原始的思路)。 lucene也是利用了两类模型:布尔模型和向量空间模型; [布尔模型]{http://blog.youkuaiyun.com/iterate7/article/details/77206613}负责检索到数据; 向量...原创 2018-02-26 15:25:26 · 597 阅读 · 0 评论 -
pagerank算法的再理解
问题描述如果要评估一个页面的得分,谷歌提出了pageRank算法。主体思路是: 一个网页的重要程度与两个方面有关: 1. 指向自己的页面越多,越重要 2. 指向自己的页面越重要,那么得分越高。于是公式可以: PRi=∑(j,i)∈EPRjOj(1)(1)PRi=∑(j,i)∈EPRjOjPR_i = \sum_{(j,i)\in E} \frac{PR_j}{O_j} \tag{...原创 2018-03-12 19:27:00 · 1265 阅读 · 0 评论