lucene
leibnitz09
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
lucene boost 的誤解
之前一直以为,无论在index或搜索时,如果boost为0,結果将不会得出。但今天经过测试,不是这样的。 来看它的评分公式吧,其中一项就是 queryNorm(q) ,它是这样计算的: 1/sumOfSquaredWeights½ 但这样可能遇到分母为0的情况,于是在Query中的weight()中作了修正 :如果是infinite则为1. 不过,由此我又想到了...2011-10-06 16:56:56 · 198 阅读 · 0 评论 -
lucene has updated to 3.3
3.3-2011.7 Highlights of the Lucene release include: The spellchecker module now includes suggest/auto-complete functionality, with three...原创 2011-07-20 13:56:35 · 121 阅读 · 0 评论 -
nutch 评分机制
其实nutch的评分机制有二部分,与通常的SE类似: 1。keywords匹配度 比如利用了lucene的similary机制,要索引和查询时均可定制。 2。page rank 这里有二个, 一是LinkAanlyzeScoring,作通常连接分析,但基本上都没有方法实现;不知道是否是opic的一个早期版本? 二是opic,即on-line importance c...原创 2011-07-22 02:28:22 · 258 阅读 · 0 评论 -
nutch 数据增量更新
以下是转载的执行recrawl的脚本(其实还是可以再优化的,比如参数和备份处理过程等 ),来对比 一下与普通的crawl有啥区别。 # runbot script to run the Nutch bot for crawling and re-crawling. # Usage: bin/runbot [safe] # If executed in 'safe' mode,...2011-07-22 19:25:17 · 175 阅读 · 0 评论 -
nutch搜索架构关键类
在整个crawl->recrawl后,其实作为搜索的文件夹只有两个: * index(indexes) :提供搜索,和获取details信息(其实它也是通过 lucene doc fields来得到)。如title,url,last-modified,cache等等。 * segments : 提供summary即页面的描述,也就 是parse_text和cached(快照,con...2011-12-13 00:17:12 · 168 阅读 · 0 评论
分享