
search engine
文章平均质量分 66
pwlazy
这个作者很懒,什么都没留下…
展开
-
windows下nutch0.8初探
前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:project name="nutch-crawl" default原创 2006-08-23 23:49:00 · 6222 阅读 · 31 评论 -
Dissecting The Nutch Crawler -Factory classes: '''ParserFactory''', '''ProtocolFactory'''
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyFactory classes: ParserFactory, ProtocolFactory> Class net.nutch.parser.ParserFactory > used by: >翻译 2006-08-08 22:01:00 · 2283 阅读 · 0 评论 -
windows下nutch初探
运行crawl 环境:winxp+cygwin+ nutch0.7.1step 1)下载nutch0.7.1后解压到比如e:/nutch-0.7.1 并设置环境变量JAVA_HOMEstep2)在e:/nutch-0.7.1建立一个文件,名为urls,内容为blog.youkuaiyun.com/pwlazy,表示待爬的网页step3)将e:/nutch-0.7.1/conf下的crawl-urlfilter原创 2006-08-01 18:08:00 · 2974 阅读 · 7 评论 -
Dissecting The Nutch Crawler -introduction
英文原文出处:DissectingTheNutchCrawler转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyIntroductionThe open-source Nutch search engine consists, very roughly, of three components: the crawler, which翻译 2006-08-04 11:59:00 · 1348 阅读 · 0 评论 -
Dissecting The Nutch Crawler - Command "inject": net.nutch.db.WebDBInjector
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyCommand "inject": net.nutch.db.WebDBInjector> "inject: inject new urls into the database" > Usage: WebDBInjector翻译 2006-08-04 18:44:00 · 1332 阅读 · 0 评论 -
使用lucene对搜索结果排序
lucene默认根据匹配度对搜索结果降序排,如果对某个域进行排序? 通常分两步: step1)建索引时doc.add(new Field("audittime", row.get("audittime").toString(), Field.Store.NO, Field.Index.UN_TOKENIZED));关键点是你需要排序的字段建索引时应该采原创 2006-08-18 15:05:00 · 10154 阅读 · 4 评论 -
lucene并行建索引解决方案
背景:单线程为30万条数据建索引花了10分钟,为了提高效率采用多线程 起初我采用多个线程共享一个indexwriter实例(也意味着往同一个目录写索引),这是 lucene in action 和lucene wiki的推荐做法,不知道到为什么总是报FileNotFoundException, 很让人困惑。偶尔会成功一次。这个错误让我想起另外一个问题,就是在建索引的时候搜索也会报这个 错误,l原创 2007-02-16 14:45:00 · 10884 阅读 · 14 评论 -
lucene搜索关键字中的空格
在搜索中如果输入"a b"进行搜索上是"或者"的关系: a OR b,但如果你是针对多个域进行搜索的话就会出现问题比如你的本意是或者tag:a或者tag:b 或者title:a或者title:b,搜索表达式为tag:a tag:b title:a title:b,但当你输入a b,情况并非如此,此时的搜索表达式是tag: a b title a b,与之等价的表达式为tag:a tag:b ti原创 2007-03-15 13:53:00 · 4749 阅读 · 0 评论 -
小议lucene搜索表达式中的AND和OR以及+和空格
在构造搜索表达式的时候你可以使用+(与AND相当,当不完全相同) 和空格(与OR相当),也可以使用AND和OR,当然也可以都混在一起,个人感觉最好不要构造复杂的表达式的时候千万要注意,特别是使用AND OR的时候,搜索引擎解析表达式的时候并非按照常规的先AND后OR比如tag:a AND tag:b OR title:a AND title:b 初看下来以为这个表达式与下面的等价 (ta原创 2007-03-15 14:25:00 · 7290 阅读 · 0 评论 -
Hadoop in aciton
背景:hadoop应该是一个mapreduce框架,它封装了程序分布的细节,使开发者只关注最重要的应用,即Map 和reduce.本文以单机为基础,略去了一些细节, 剖析了其主要流程。废话少说,开始实战: 首先写个测试类: public class WordCount ...{ public static class RegexMapper extends MapRe原创 2007-07-05 12:11:00 · 4887 阅读 · 4 评论 -
solr facet是个好东东
一直没有想到为什么要使用solr,虽然solr提供很多利器前段时间在考虑如果做搜索分组统计的一个个东东,想了很多方案,仍然感觉不好,直到我看到Apache Con 2007上的一篇文档Apache Solr Out Of The Box (OOTB),我觉得看到了希望里面提到的facet正是我想要的solr的facet field和facet query的确是很强大, f原创 2008-04-22 18:27:00 · 8166 阅读 · 9 评论 -
solr的索引更新
背景: solr作为搜索工具,索引采用传统的lucene构建,当更新索引文件的时候,搜索并不会出现更新 solr确实做了精细的缓存机制,缓存跟一个特定的searcher绑定,与普通的缓存相比,solr的缓存并不会在一段时间之后失效,除非searcher发生改变 当你将solr集成到你的应用,而非采用solr服务器方式的时候,此时会带来麻烦,你不得不自己编写代码解决 通原创 2008-04-22 18:29:00 · 11560 阅读 · 1 评论 -
nutch recrawl中出现的问题及解决
昨天在recrawl的时候经常出现错误1) java.lang.ArrayIndexOutOfBoundsException: -1 at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:113) at org.apache.nutch.indexer.DeleteDup原创 2009-06-29 23:33:00 · 1803 阅读 · 1 评论 -
解决lucene范围搜索中的TooManyClauses exception
上周在使用范围搜索时又遇到问题 ,程序抛出TooManyClauses exception。后来才发现lucene将范围搜索转化为精确匹配,每个匹配对应一个clause,所以如果你的范围如果包含超过1024个索引值,程序就会抛错由此想到3种方案1)既然lucene限制了clause的个数,那么可以通过BooleanQuery.setMaxClauseCount(Integer.M原创 2006-12-07 16:40:00 · 4515 阅读 · 0 评论 -
Dissecting The Nutch Crawler -Command "fetch": net.nutch.fetcher.Fetcher
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyCommand "fetch": net.nutch.fetcher.Fetcher> "fetch: fetch a segments pages" > Usage: Fetcher [-logLe翻译 2006-08-07 12:47:00 · 1793 阅读 · 0 评论 -
使用lucene的多字段排序--回复网友BUFFON
网友BUFFON问了我一个问题 ,问题地址可以点此链接我们来看看这个问题 怎样实现在按一个或多个FEILD的匹配度排序的同时又按一个FIELD的顺序排序以及BUFFON想要达到的效果:----------------------------原创 2006-08-24 10:15:00 · 4259 阅读 · 1 评论 -
Lucene到底是个什么东西
Lucene是个开源的搜索引擎,如果你的项目的一些信息需要被搜索,但又没有合适的搜索工具,那么你应该考虑使用它.为什么我会使用这个玩意?我的前一个项目是关于网络视频的,里面牵涉到对视频作搜索(废话), 主要是对视频的描述做一些灵活的搜索,起初我使用了MySql的全文索引,似乎事情到此截止了,但后来我发现MySql全文索引对中文支持很差(也许是我对MySql没有很深入的研究导致的,大家可以关注海量科原创 2006-05-13 07:05:00 · 2292 阅读 · 1 评论 -
lucene中的删除索引
今天在测试lucene的删除索引中遇到一个问题测试代码如下:。。。。。。。protected void setUp() throws Exception ...{ super.setUp(); deleteIndexBuilder = (DeleteIndexBuilder) CTX .getBean("deleteIndexBui原创 2006-10-17 17:30:00 · 7527 阅读 · 3 评论 -
Lucene in a cluster
Lucene in a clusterLucene is a highly optimized inverted index search engine. It stored a number of inverted indexes in a custom file format that is highly optimized to ensure that the indexes can b翻译 2006-06-15 01:42:00 · 3199 阅读 · 3 评论 -
Lucene中的范围搜索
前两天做有关lucene的范围搜索,觉得应该很简单,因为之前做过lucene的排序。但一做就发现不那么回事,做排序程序几乎不需要改动,但范围搜索完全不同。下面就3个方面(整数,浮点数,日期)来说前提:使用lucene1.9.1,将整数,浮点数和日期全部以如下方式建索引doc.add(new Field(key, value,Field.Store.YES, Field.Index.UN_T原创 2006-11-16 12:13:00 · 3604 阅读 · 1 评论 -
使用ant驱动nutch crawl
在windows下 跑nutch crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch crawl显得更省力,下面将nutch-0原创 2006-08-01 23:08:00 · 3160 阅读 · 1 评论 -
Dissecting The Nutch Crawler - The "nutch" shell script
英文原文出处:DissectingTheNutchCrawler转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyThe "nutch" shell script http://www.nutch.org/docs/en/tutorial.html The Nutch tutorial describes a numb翻译 2006-08-04 12:37:00 · 1566 阅读 · 0 评论 -
Dissecting The Nutch Crawler -Factory classes: Overview
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyFactory classes: Overview> Class net.nutch.parser.ParserFactory > used by: > - net.nutch.db.WebDBInjec翻译 2006-08-07 22:15:00 · 1407 阅读 · 0 评论 -
Dissecting The Nutch Crawler -Aside: net.nutch.util.NutchConfig
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyAside: net.nutch.util.NutchConfigIf you have been reading the code along with our discussion, you may have noticed seve翻译 2006-08-08 00:14:00 · 1460 阅读 · 0 评论 -
Dissecting The Nutch Crawler -Factory classes: '''URLFilterFactory'''
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyFactory classes: URLFilterFactory> Class net.nutch.net.URLFilterFactory > used by: > - net.nutch.db.WebDB翻译 2006-08-08 20:49:00 · 1523 阅读 · 0 评论 -
Dissecting The Nutch Crawler - Command "crawl": net.nutch.tools.CrawlTool
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyCommand "crawl": net.nutch.tools.CrawlToolCrawlTool is a class that does little more than lash together the steps youd do翻译 2006-08-04 13:39:00 · 1711 阅读 · 0 评论 -
Dissecting The Nutch Crawler - Command "admin -create": net.nutch.tools.WebDBAdminTool
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyCommand "admin -create": net.nutch.tools.WebDBAdminTool> "admin: database administration, including creation" > Usa翻译 2006-08-04 15:35:00 · 1255 阅读 · 0 评论 -
Dissecting The Nutch Crawler -Command "generate": net.nutch.tools.FetchListTool
英文原文出处:DissectingTheNutchCrawler 转载本文请注明出处:http://blog.youkuaiyun.com/pwlazyCommand "generate": net.nutch.tools.FetchListTool> "generate: generate new segments to fetch" > Usage: FetchList翻译 2006-08-04 23:00:00 · 1630 阅读 · 0 评论 -
浅谈MMSEG分词算法
最近看了下MMSEG分词算法,觉得这个算法简单高效,而且还非常准确 作者声称这个规则达到了99.69%的准确率并且93.21%的歧义能被这个规则消除。核心思想是抽取3个可能的词(存在多个组合),然后根据4个消歧义规则确定到底选择那个组合 1. 组合长度最大 2. 组合中平均词语长度最大 3. 词语长度的变化率最小 4. 计算组合中所有单字词词频的自然对数,然后将得到的值相加,取总原创 2013-12-25 20:38:03 · 13879 阅读 · 0 评论