
lucene&nutch
coderplay
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
职友集的搜索
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。 且看前面几条: 财务软件实施和服务顾问 参考工资 查看人脉 服务经理和服务工程师Service Manager and Engineer 参考工资 查看人脉 服务经理和服务工程师Service Manager and Engineer 参考工资 看样子是采用的二元分词做的。 ht...2008-07-04 12:45:49 · 216 阅读 · 0 评论 -
中文分词演示
中文分词是中文信息检索的基础,也是一项难题。 下面随手做的一个演示, lucene的Analyzer扩展。2008-05-23 20:03:25 · 268 阅读 · 0 评论 -
nutch源代码分析之ParseSegment
ParseSegment2008-05-20 19:36:27 · 174 阅读 · 0 评论 -
nutch源代码分析之Fetcher
MapReduce:获取的urls集 输入:<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现 调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content&...2008-05-20 17:28:54 · 174 阅读 · 0 评论 -
nutch源代码分析之Generator
MapReduce1:选择要获取的urls [list] [*] 输入:爬虫数据库文件 [code="java"] public Path generate(...) { ... job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME)); job.setInputFormat(SequenceFile...2008-05-20 03:33:32 · 242 阅读 · 0 评论 -
nutch源代码分析之Injector
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。 参见Injector.inject(Path crawlDb, Path urlDir)方法 MapReduce1: 把输入数据转换为数据库所需的格式 [list] [*] 输入:未处理的,包含url信息的文本文件 [*] Map(line) -> ; status=db_unfetc...2008-05-20 03:14:57 · 148 阅读 · 0 评论 -
关于本体论及语意搜索的一些资料
本体论的概念, wiki http://en.wikipedia.org/wiki/Ontology_(information_science) 有点像专家系统, 应该是prolog的专长. 语义搜索 http://www.powerset.com http://www.hakia.com/ http://www.evri.com...2008-11-13 01:47:04 · 124 阅读 · 0 评论 -
最近做的几个项目
1. 把libmmseg分词加了与lucene吻合的java接口,分词速度与c++版本接近, 已经和作者联系了.会在近期开源出去. 2. 用hadoop的mapreduce模型做了一个自动识别行业词的程序, 从算法上降低了计算量,而且分布式的话会更加快. 我用一份从51job, 智联招聘, 中华英才网等400多家招聘网站抓取的311万条职位语料做测试,5, 4元词词频在1000以上的正确...2008-09-29 10:11:21 · 132 阅读 · 0 评论 -
几个搜索相关的pdf(lucene, 分词等)
写文档时, 偶然发现很久以前的东西,给大家分享一下. 现在lucene已经过了这个版本, 已经有OpenBitSet这种好东西了.~ 1. lucene2.3.2的变更 2. 疱丁解牛分词器分析 3. 几种分词器精度和速度的比较 Lucene2.3.2的变更 Author: Jeremy Chow(coderplay@gmail.com) Last Modified: Aug 1...2009-02-26 15:01:50 · 243 阅读 · 0 评论 -
lucene2.3.2与2.2.0建索引的速度比较
文本材料大小: 43.9 MB 文件数目: 19997个 分析器: lucene标准StandardAnalyzer lucene-2.2.0 索引大小: 16,901,638 字节 耗时: 158094 total milliseconds 110437 total milliseconds 106328 total milliseconds lucene-2.3.2 索引大小:...2008-07-29 22:42:02 · 138 阅读 · 0 评论 -
关于分布式lucene
有NFS, haproxy/lvs等解决方案。 或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统 为什么不用hadoop的HDFS? 原因有三: 1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。 2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效...2008-07-07 14:15:00 · 238 阅读 · 0 评论 -
nutch演示
抓取了系里的网站 http://cs.jnu.edu.cn 和lucene的网站 http://lucene.apache.org/ 然后对这两个网站进行搜索.2008-05-23 20:08:57 · 125 阅读 · 0 评论