
搜索引擎技术
nuoline
关注NLP,ML,云计算,大数据,hadoop
微博:http://weibo.com/nuoline
个人博客网站:http://www.zhaizhouwei.cn/
展开
-
nutch中文分词
1 中文分词介绍中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前,Nutch中文分词方式大致有两种方式:一是修改源代码。这种方式是直接对Nutch分词处理类进行修改,调用已写好的一些分词组件进行分词。二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。以上两种方式都是可取的。目前,由于开源社区的原创 2013-02-25 18:35:11 · 1937 阅读 · 0 评论 -
Spectral Bloom Filter算法
Bloomfilter将集合中的元素映射到位数组中,用k(k为哈希函数个数)个映射位是否全1表示元素在不在这个集合中。Countingbloomfilter(CBF)将位数组中的每一位扩展为一个counter,从而支持了元素的删除操作。一旦位扩展成了counter,每一个counter就不仅能表示这一地址有无映射,还能表示映射的个数。这一扩展使得存储的数据包含了更多信息,然而遗憾的是,CBF原创 2013-02-25 18:38:38 · 478 阅读 · 0 评论 -
Lucene3.0的几种分词系统
1、 StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、 StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能。3、 SimpleAnalyzerSi原创 2013-02-25 18:35:53 · 666 阅读 · 0 评论 -
nutch-1.0添加JE中文分词-修改源码…
这几天一直在搞nutch中文分词,也转载了好几篇文章,但是都写的比较简单而且有错误,估计原作者肯定也是实现了,今天终于搞定了,介绍一下我实现的方法。1 nutch有两种方式可以实现自定义的分词:1>,直接修改源代码,对默认的分词器代码进行修改使其使用自定义中文分词程序。2>,插件机制,可以在不修改源代码基础上,以插件形式集成自定义中文分词功能。这中法可以参考nutch已经集成的德语和法语原创 2013-02-25 18:35:29 · 612 阅读 · 0 评论 -
Nutch中如何实现中文分词功能
Nutch对中文查询时默认采用的分词器为NutchAnalyzer,对中文默认采用单字切分.这种效果不是很理想,我们可以自定义切词器,以实现对中文支持,注意网上对如何添加中文分词功能有很多介绍但不全也不完整,对Nutch添加中文分词一定要在检索端和查询端同时更改。可以采用的两种方式添加对中文的支持.1.直接修改nutch的系统代码,对默认的分词器代码进行修改使其使用自定义中文分词程序.2.采原创 2013-02-25 18:35:26 · 573 阅读 · 0 评论 -
为Nutch 1.0添加JE中文分词
先下载Nutch 1.0的源文件:先下载Nutch 1.0的源文件:svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0./nutch-1.0更改查询语法解析部分:改变tokenize的方式(原来为中文单字识别)modify “src/java/org/apache/nutch/analysis/Nut原创 2013-02-25 18:35:20 · 568 阅读 · 0 评论 -
Nutch1.0开源搜索引擎与Paoding在e…
源:http://banditjava.javaeye.com/blog/468303本文主要描述的是如何将paoding分词用plugin方式集成到nutch1.0中去,在集成之前首先要在eclipse中把nutch1.0编译通过。然后,写一个中文分词程序,配置好插件配置文件,重新打包编译。如果有linux环境,就可以直接进行编译,如果没有linux环境,还需要下载并配置cygwin等模拟原创 2013-02-25 18:35:13 · 571 阅读 · 0 评论 -
提高Nutch局域网抓取的速度
如果想要提高Nutch局域网抓取的速度,大家第一个想到肯定是-threads.但是那是错误的,如果只是单单增大线程数,那根本于事无补。通过下面这组测试,我们看看-threads是否起作用。threads的值分别为1,5,10 结果如下表:线程数时间1891.0014625889.56052910878.812949从上面表格可以看出,这根本原创 2013-02-25 18:40:34 · 811 阅读 · 0 评论 -
Bloom-Filter算法简介
一、 Bloom-Filter算法简介。Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom-Filter存在着误判。二、 Bloom-Filter的基本思想。Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。计算某元素x是否在一个原创 2013-02-25 18:38:36 · 518 阅读 · 0 评论 -
Lucene简介
Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示HackingLucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展从Lucene我们还可以学到什么另原创 2013-02-25 18:37:43 · 425 阅读 · 0 评论 -
开源的桌面搜索引擎
1.Regainregain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法,因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供原创 2013-02-25 18:37:06 · 3847 阅读 · 0 评论 -
nutch插件机制
Plugin插件机制为Nutch提供了很强大的扩展性,曾经看到一篇文章《不选择使用Lucene的6大原因》,其中就提到lucene的API不够开放。Lucene的OO设计的非常糟,尽管有包package和类class,但是Lucene的设计基本上没有设计模式的身影。这是不是c或者c++程序员写java程序的通病?Lucene中没有使用接口Interface,等等。在Lucene的2.0版本中就解决原创 2013-02-25 18:35:24 · 554 阅读 · 0 评论 -
nutch的中文分词 imdict-chinese-a…
改造nutch,将原来的中文分词程序改成imdict-chinese-analyzer,这个是根据中科院的c版分词程序而来的纯java版。 下载imdict-chinese-analyzer 我下的是imdict-chinese-analyzer-java5.zip nutch1.0 下载来的imdict-chinese-analyzer-java5.zip里面只是一个eclips原创 2013-02-25 18:35:18 · 509 阅读 · 0 评论 -
nutch-1.0添加imdict-chinese-anal…
1 前言昨天在nutch中添加了JE中文分词,今天有试了下基于中科院的多层隐马模型的分词组件,imdict-chinese-analyzer,目前这个组件已经正式集成到lucene-3.0,具体在要用到lucene-analyzers-3.0.1.jar和 lucene-smartcn-3.0.1.jar这二个包在contrib\analyzers文件,由于nutch-1.0中的lucen原创 2013-02-25 18:35:31 · 3065 阅读 · 0 评论 -
Nutch开源搜索引擎与Paoding中文分…
本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件build.xml,plugin.xmlb)nutch-0.9\src\plugin\build.xml c)WEB-INF/classes/nutch-site.xml然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的方式来处理原创 2013-02-25 18:35:22 · 531 阅读 · 0 评论 -
imdict-chinese-analyzer
imdict-chinese-analyzer 是 imdict智能词典的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model,HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。Apache Lucene的中文分词ApacheLucene是java实现的一个高效的文本原创 2013-02-25 18:35:16 · 1566 阅读 · 0 评论 -
nutch界面修改
目录:1.Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建2.Nutch1.2二次开发详细攻略(二)【图文】------Windows平台下Nutch1.2的搭建3.Nutch1.2二次开发详细攻略(三)【图文】------Nutch1.2二次开发(关于界面修改)4.Nutch1.2二次开发详细攻略(四)【图文】------Nut原创 2013-02-25 18:40:36 · 663 阅读 · 0 评论