
搜索引擎
文章平均质量分 64
javabandit
这个作者很懒,什么都没留下…
展开
-
Nutch1.0开源搜索引擎与Paoding在eclipse中用plugin方式集成(终极篇)
本文主要描述的是如何将paoding分词用plugin方式集成到 nutch1.0中去,在集成之前首先要在eclipse中把nutch1.0编译通过。然后,写一个中文分词程序,配置好插件配置文件,重新打包编译。如果有linux环境,就可以直接进行编译,如果没有linux环境,还需要下载并配置cygwin等模拟linux环境。 一.环境说明 工具:my...原创 2009-09-14 13:15:10 · 140 阅读 · 0 评论 -
搜索引擎名人堂之Jeff Dean
最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。 看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。 我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。 他曾参与了 g...原创 2008-09-22 15:09:55 · 366 阅读 · 0 评论 -
MapReduce-免费午餐还没有结束?
Map Reduce - the Free Lunch is not over?微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。摩...原创 2008-09-24 09:57:34 · 130 阅读 · 0 评论 -
关于Hadoop的MapReduce纯技术点文章
本文重点讲述Hadoop的整个MapReduce过程,不讲故事,不废话,重在描述每个环节。通过对google过来的文章一番苦读,我整了一些笔记,加入一些自己的看法,不一定全对,大家要区别对待。希望本文对想了解Hadoop的MapReduce的同学有一些帮助。一. 使用Map/Reduce算法的目标1) 能够将计算分布式处理a) 当需要时,数据是总是可用的b) 应用程序不用关心...原创 2008-09-24 18:10:35 · 143 阅读 · 0 评论 -
Nutch开源搜索引擎与Paoding中文分词用plugin方式集成
本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9\src\plugin\build.xml c)WEB-INF/classes/nutch-site.xml 然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的方式来...原创 2008-09-26 15:31:14 · 127 阅读 · 0 评论 -
Nutch开源搜索引擎增量索引recrawl的终极解决办法
本文重点是介绍Nutch开源搜索引擎如何在Hadoop分布式计算架构上进行recrawl,也就是在解决nutch增量索引的问题。google过来的章中没有一个详细解释整个过程的,经过一番痛苦的研究,最后找到了最终解决办法。先按照自己部署好的Nutch架构写出recrawl的shell脚本,注意:如果本地索引,就需要调用bash的 rm、cp等命令,如果HDFS上的索引,就需要调用hadoo...原创 2008-09-26 19:12:41 · 152 阅读 · 0 评论 -
搜索引擎名人堂之Doug Cutting
Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其...原创 2008-09-27 11:41:52 · 820 阅读 · 0 评论 -
Google公司都是些什么牛人?
Google公司都是些什么牛人? 1 Vinton Cerf :号称互联网之父,TCIP/IP协议和互联网架构的合作设计者。他05年10月3日开始正式为Google工作,职位为"首席互联网传布官"。 2 Joshua Bloch :号称java教父,《Effective Java》《JAVA PUZZLE》的作者,JSR175标准的leader,J2SE 1.5的主...原创 2008-09-27 17:31:09 · 564 阅读 · 0 评论 -
Nutch:一个灵活可扩展的开源web搜索引擎
在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch...原创 2008-09-28 11:46:47 · 147 阅读 · 0 评论 -
Nutch开源搜索引擎增量索引recrawl的终极解决办法(续)
十一要放假了,先祝广大同学们节日快乐!在之前的一篇文章中,我给出了Nutch的recrawl的解决办法。说实话,当时已经觉得可以应对recrawl的问题,但是我自己在测试过程中发现,在index的merge时,并没有完全成功。本文就是针对上一篇文章给出解决办法。具体的原因是在merge完成后,会在index目录下面生成一个merge-output目录,这是由于临时目录newinde...原创 2008-09-28 19:30:30 · 160 阅读 · 0 评论 -
微软有趣的人物关系搜索引擎——人立方
最近,微软亚洲研究院刚刚发布了一个“人肉搜索”的新产品,可以从你输入的某个名字,搜索到该名字双关的人物。下面笔者分享一下人立方的功能 人立方地址:http://renlifang.msra.cn/ 人立方简介 微软人立方关系搜索是由微软亚洲研究院网络搜索与挖掘组研发的对象级别(object-level)互联网搜索引擎。 人立方关系搜索从超过十亿的中文网页中自动的抽取出...原创 2008-10-03 20:00:51 · 3663 阅读 · 0 评论 -
《Lucene+Nutch搜索引擎》看过以后。。。
研究搜索引擎技术快一个月了,最大的老师就是google和自己的编程经验了,另外还有一本我从海淀图书城抓来的《Lucene+Nutch搜索引擎》,从一个门外汉到初级入门者,其中经历了很多痛苦和短暂兴奋。就在我认为可以大展拳脚时,发现困难超乎自己的想像。首先,关于搜索引擎技术的进阶资料少之又少,现有的资料大多数只是介绍如何使用,如何配置。再者,由于版本更新或者网络文章撰写者水平问题,很多文章都...2008-10-03 23:42:49 · 253 阅读 · 0 评论 -
谁说搜索引擎只关注结果-看我viewzi的72变
搜索引擎给大家的感觉,就是用起来简单,以google为首,一个文本,一个按钮,一个简单的列表页面,几乎是用户常用操作的全部。但viewzi可不这么看,除了搜索引擎的复杂架构之外,它对于结果的显现也是梦幻的。下面我列举了查询关键字“nutch”,通过不同的view来呈现结果的查询链接,总有一种呈现方式是你所喜欢的,不信你试试以下的链接,体验一下吧。http://www.viewzi....2008-10-04 20:15:36 · 157 阅读 · 0 评论 -
搜索引擎算法研究
1.引言 万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。 传统的WEB...原创 2008-10-13 15:11:35 · 1064 阅读 · 0 评论 -
搜索引擎机器人研究报告
从该文对googlebot的分析看,googlebot似乎是想先对网站的结构和规模做出分析,然后再规划抓取行为,googlebot的行为确实很有意思。Yahoo的机器人似乎是以月为单位周期的更新,抓取新网页和索引,感觉是想以量取胜,并且对网页似乎没有进一步的分析。感觉MSNbot在整体上还略逊于另两个竞争对手。Introduction引言In the previous edition ...原创 2008-10-13 15:35:07 · 379 阅读 · 0 评论 -
搜索引擎术语
最近monner兄共享了一篇搜索引擎资料《原理技术与系统》,很有收获啊。下面我将其中的术语部分列出来,大家一起学习一下。附录. 术语B:半结构化数据(semi-structured data),和普通纯文本相比,Web上的网页数据具有一定的结构性,表现在其中的HTML标注上;但和具有严格理论模型的关系数据库的数据相比,这种HTML标注带来的结构性又要弱很多,因此人们称Web上的数据...2008-10-15 15:30:53 · 619 阅读 · 0 评论 -
配置linux服务器之间ssh不用密码访问
在配置nutch的时候,我是采用三台服务器来实现的,现在详细讲述一下如何配置在ssh时不用密码来登录,这个也是配置nutch运行起来的前提。现在linux1是主节点,它需要主动发起SSH连接到linux2和linux3,对于SSH服务来说,linux1就是SSH客户端,而linux2、linux3则是SSH服务端,因此在linux2,linux3上需要确定sshd服务已经启动。简单的说,在...原创 2008-11-05 13:55:01 · 179 阅读 · 0 评论 -
Lucene于搜索引擎技术(Analysis包详解)
Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构...原创 2008-09-22 14:55:47 · 199 阅读 · 0 评论 -
Lucene与搜索引擎技术(Document包详解)
Document包分析理解DocumentLucene没有定义数据源,而是定义了一个通用的文档结构,这个文档结构就是LuceneDocument包下的Document类.一个Document对应于你在...原创 2008-09-22 14:54:44 · 314 阅读 · 0 评论 -
Lucene的查询语法
原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm绪论Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器...原创 2008-09-22 14:53:12 · 84 阅读 · 0 评论 -
我的开源搜索引擎之路
老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的经验,如何是好呢?这时我脑袋里闪过的,就是需要求助开源社区了。 我是做Java程序员出身,很快找到了大名鼎鼎的lucene,到ibm的devleopworks上泡了几天,基本上把lucene的原理搞明白了。当第一个例子跑起来的时候,还是有一些兴奋的,...2008-09-11 15:41:31 · 133 阅读 · 0 评论 -
完成了对于lucene的初步理解和环境搭建
------------20080724-------------通过控制台来启动lucene应用程序step1.建立索引>java org.apache.lucene.demo.IndexFiles C:\Java\lucene-1.4\src将对C:\Java\lucene-1.4\src下所有文件建立索引,同时,在当前命令行位置将生成“index”文件夹。step2....原创 2008-09-11 15:50:21 · 118 阅读 · 0 评论 -
研究一下solr
--------------------20080725------------------------------apache-solr-1.2.0\example\exampledocs下面执行java -Durl=http://localhost:8080/solr/update -jar post.jar cybertron.xmljettyjava -Durl=h...原创 2008-09-11 15:51:38 · 88 阅读 · 0 评论 -
完成了对于heritrix的初步研究
---------------------------------------------------20080728---------------------------------------------------完成了对于heritrix的初步研究,需要用maven1.1来编译E:\workspace\searchengine\heritrix\heritrix-1.14.0 ...2008-09-11 15:52:26 · 117 阅读 · 0 评论 -
完成了paoding与lucene的集成
---------------------------------------------------20080729---------------------------------------------------理解疱丁分词的基本原理,编译原码,用ANT编译E:\workspace\searchengine\paoding-analysis-2.0.4-beta 完成...原创 2008-09-11 15:53:08 · 101 阅读 · 0 评论 -
开始改造lucene的demo,为我所用
-------------------20080731------------------修改前端界面,修改成类似baidu的风格修改index.jsp和results.jsp研究IndexHTML.java1)在meta中有中文,就解析不过去了 2)在注释中有中文,也解析不去 考虑把...原创 2008-09-11 15:54:49 · 130 阅读 · 0 评论 -
搜索引擎技术点的整理
技术点:需要整理研究的搜索引擎技术点(目录,无实际价值)(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证1,断句与分块2,字符类型设计与识别(中文,英文,数字,半角,全角).3,从已断句子中分析提取字符类型相同的连续字串.4,字典类设计5,分词算法设计 5.1,数字英文分词算法设计 5.2,中文分词算法设...2008-09-11 15:56:15 · 190 阅读 · 0 评论 -
研究hadoop分布式计算平台及三台服务器的实现
--------------------20080819------------参考文章http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.htmlhttp://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.htmlhttp...原创 2008-09-11 16:03:31 · 184 阅读 · 0 评论 -
深入了解Hadoop
-----------------------20080827-------------------深入了解hadoophttp://www.blogjava.net/killme2008/archive/2008/06/05/206043.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误...原创 2008-09-11 16:05:21 · 204 阅读 · 0 评论 -
研究Nutch开源搜索引擎心得记录
---------------20080828------------下载源码,初步研究--------------20080829-------------http://blog.youkuaiyun.com/lianqiang198505/archive/2007/04/18/1569680.aspx 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一...原创 2008-09-11 16:07:05 · 196 阅读 · 0 评论 -
搜索引擎最热的关键字是什么?
在网上搜索一些资料时,发现搜索引擎最热的关键字排名很意思,下面是文章的摘要,共享一下 雅虎年度十大关键词出炉不久,另一大搜索引擎公司Google的关键词搜索Top10也于 2007-12-05出炉,热门数码产品iphone位居榜首。另外值得注意的是,其中五个关键词均为社区网站。 Google的Top10依次为:1. iphone;2. webkinz(网娃)儿童交互网络社区;3. ...2008-09-18 14:05:30 · 367 阅读 · 0 评论 -
Nutch开源搜索引擎的crawl日志分析及工作目录说明
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfi...原创 2008-09-19 17:42:17 · 100 阅读 · 0 评论 -
Nutch开源搜索引擎crawl的两种方式比较
在我之前的Nutch爬虫试验中,是调用crawl命令直接抓取,在深入学习crawl时,发现具体的运营过程当中,需要更精细的控制整个crawl抓取过程,下面就针对nutch两种方式做一个比较。方式一:nutch局域网抓取$ bin/nutch crawl urls -dir crawl10 -depth 10 -threads 10 >& nohup.out具体的抓取过程分析详见《Nut...原创 2008-09-22 10:19:31 · 233 阅读 · 0 评论 -
Lucene开源搜索引擎的索引目录结构
Lucene索引结构可以分为索引、索引段、索引文档、索引域和索引项几个不同层次。lucene每个索引的结构由一个或者多个段组成,每个段包含一个或多个文档,每个文档管理了一个或者多个域,每个域由一个或多个索引项组成,每个索引项是一个索引数据index->segment->document->field->term在使用过程中,有两种结构可供选择,一种是多文件索引结构,一种是复合索引结...原创 2008-09-22 10:22:23 · 151 阅读 · 0 评论 -
Lucene倒排索引原理
Lucene倒排索引原理xzall 原创 (参与分:2747,专家分:140) 发表:2004-08-04 10:12 版本:1.0 阅读:2652次 Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live ...原创 2008-09-22 13:48:03 · 113 阅读 · 0 评论 -
Lucene与搜索引擎技术(index包详解)
Index包分析原创:windshow TjuAILabLucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term)其中Index为Document的序列 Document为Field的序列 Field为Term的序列 Term就是一个子串.存在于不...原创 2008-09-22 13:49:49 · 755 阅读 · 0 评论 -
Nutch1.0的那些事
很久没有更新博客了,应该快一年了。现在呢,我把去年研究过的Nutch重新拾掇起来,开始了新的开源搜索引擎研究旅程。更多感慨是,Nutch已经在今年3月份已经发布了1.0版本,之前研究的Nutch还是0.9版本,其最大的变化并不是版本的升级,而是Nutch已经正式成为了Apache.org的子项目,并且可爱的Hadoop发的速度甚至超过了Nutch本身。也正在由于Hadoop存在使得Nu...原创 2009-09-10 12:37:55 · 167 阅读 · 0 评论