
搜索引擎研究
文章平均质量分 91
husn
性格、爱好、生活态度、工作情况、受教育状况等
展开
-
如何在lucene中使用中文自动分词技术- -
偶在http://yuanlang.blogdriver.com/yuanlang/index.html上看到的一篇关于分词的文章前段时间我试着在lucene中使用了自动分词技术,有不少朋友都很感兴趣。大致方法就是生成自动分词的dll,然后在java中用jni调用。前几天我整理一下,做了一个方便使用的jar包,并写了一个演示的例子和一篇说明文档,以上资料和dll文件还有java源程序可以到我们转载 2005-07-28 00:19:00 · 3676 阅读 · 2 评论 -
搜索引擎面面观[转]
使用搜索引擎是网民上网最重要的一件事。根据CNNIC的统计,搜索是互联网上仅次于电子邮件的应用,因此这篇文章对各个搜索引擎进行客观介绍,希望能够给网民搜索带来方便。需要澄清的是,网站目录并不是搜索引擎,搜索引擎指的是对整个互联网成亿个的网页进行检索,此搜索服务系统是基于网页的全文检索系统。而网站目录通常是人工分类的有系统的网站列表,通常附有搜索功能,从这个意义上说网站目录更像Internet上的黄原创 2005-04-26 15:13:00 · 1182 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成转载 2005-04-30 22:34:00 · 1391 阅读 · 0 评论 -
网络搜索引擎原理简介 [转]
据中国互联网络信息中心统计,目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广,正成为计算机工业界和学术界争相研究和开发的对象。搜索引擎虽然品种繁多、功能不一,但是它们的总体结构和基本的工作原理都是一样的。每个搜索引擎都有三个部分组成: (1)在Internet上采集信息的"机器人";(2)对采集到的信息进行索引并建立索引库的索引器;(3)完成用户转载 2005-04-25 12:57:00 · 1525 阅读 · 0 评论 -
面向机器翻译的全文检索系统
摘 要:本文介绍了面向机器翻译的全文检索系统的设计和实现,该系统在实现倒排档存 储结构和布尔逻辑检索、位置检索、检索相关性排序等普通全文检索系统功能的基础上 ,提供面向机器翻译的多层次检索和跨语言检索功能。针对机器翻译中篇章、段落模糊 检索的难题,本文提出了缩检、精检的方法,并通过对文档的特征分析以及选择适当的 检索表达式模型,解决了面向机器翻译检索中相关性判别的问题,在句子相似度的计算 中运用了转载 2005-04-25 12:58:00 · 2079 阅读 · 0 评论 -
深入浅出元搜索引擎
一.引言 随着网上信息资源的膨胀发展,传统搜索引擎在搜索引擎的查全率和查准率方面很难满足用户的要求。为了查询相关的内容,用户经常是同时使用多个搜索引擎查询相同内容,然後在各个搜索引擎的结果中综合出最适合自己的内容。这对于熟练的检索人员而言,可能不是什么难题,但是对于一般的网上信息搜集者来讲,肯定比较困难。因此如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源转载 2005-05-01 02:07:00 · 3480 阅读 · 1 评论 -
中文搜索引擎技术揭密:系统架构
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能转载 2005-05-01 03:13:00 · 1284 阅读 · 0 评论 -
中文搜索引擎技术揭密:中文分词
关键词:中文搜索引擎技术揭密 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、88转载 2005-05-01 03:27:00 · 1134 阅读 · 0 评论 -
信息检索的核心支撑技术
关键词:信息检索 (Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息转载 2005-05-01 03:33:00 · 2384 阅读 · 0 评论 -
搜索引擎深度剖析:谁在制造“搜索第三代”
http://www.google123.net/html/2004-12-13/20041213142115.htm 来源:互联网周刊转载 2005-04-26 13:28:00 · 1814 阅读 · 0 评论 -
FTP搜索引擎的设计与实现
摘要:FTP是因特网最主要的服务之一,FTP搜索引擎为人们使用FTP服务提供了很大的方便。本文分析和设计了一个基于WEB的FTP搜索引擎,并在PHP+Mysql环境下给出了编程实现方法。 关键词:FTP;搜索引擎;PHP;Mysql; 引言 FTP是因特网最主要的服务之一,在FTP服务器上保存有大量的各种各样的共享软件、技术资料和多媒体数据等文件。因为每个FTP服务器都有若干个目录,其目录和转载 2005-04-26 13:45:00 · 1269 阅读 · 0 评论 -
基于Linux的搜索引擎实现
搜索引擎是为用户提供快速获取网页信息的工具,其主要的功能是系统通过用户输入关键字,检索后端网页数据库,将相关网页的链接和摘要信息反馈给用户。从搜索的范围上一般分为站内网页搜索和全局网页搜索。随着网页数量的急剧增加,搜索引擎已经成为上网查询信息的必须手段,各个大型网站均已经提供网页数据搜索服务,并且出现了许多为大型网站提供专业搜索引擎服务的转载 2005-04-26 15:10:00 · 1273 阅读 · 0 评论 -
搜索引擎面面观
搜索引擎面面观 技术系列之一因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。 据发表在《科学》杂志1999年7月的文章《WEB信息转载 2005-05-02 01:06:00 · 1674 阅读 · 0 评论 -
搜 索 引 擎 分 类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teom转载 2005-05-01 23:59:00 · 1594 阅读 · 0 评论 -
在 Linux 下建立 FTP 搜索引擎
Linux正大行其道,不少朋友相信已经用它架设过各种服务,什么Web、FTP、BBS等等等啦,这次,我向大家介绍另外一个在linux下运行的服务器软件----NoseyParker,一个强大的FTP搜索引擎,只要一些简单的步骤,一个强大的搜索引擎举手间就建立起来了,各位且听我慢慢道来。 parker是一个FTP服务器搜索引擎,是基于Linux的开放源码软件。主要检索各个FTP服务器上面转载 2005-12-07 12:56:00 · 2108 阅读 · 20 评论 -
Lucene(Nutch)距离商业文本搜索引擎还有多远
注(2007-5-22):最新一次更新的时候,我再次研究了一下Lucene,读完了Lucene In Action,并且实际的使用Lucene构建了一个小型的搜索系统之后,我感觉到很惭愧,因为我一直对Lucene有不满的心理,认为它做的不好(可能受了国内的某些使用Lucene构建搜索引擎的网站的影响,因为他们构建的都很差,现在想来,可能是他们和我一样没有真正深入理解Lucene)。现在我才发现,L转载 2009-10-27 22:51:00 · 1074 阅读 · 0 评论 -
第一代搜索引擎——门户成为终点【转】
第一代的搜索引擎公司都变成了门户网站,而第二代的搜索引擎厂商则是像Inktomi、Google那样给网站提供技术与服务的ASP或是在技术上采用了人工智能技术的厂商,像Askjeeves,Direct hit等。它们在商业模式上也在不断创新,像Goto.com允许网站的拥有者实时进行检索结果的排序,客户可以花钱购买排序的位置,通过拍卖的形式将相关网站放在前面,但同时明确标出这个搜索结果是付费的。此外原创 2005-04-26 15:04:00 · 1447 阅读 · 0 评论 -
认识搜索引擎
第一部分:搜索引擎发展史 1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的F转载 2005-04-26 13:04:00 · 2884 阅读 · 1 评论 -
自动分词与中文搜索引擎
转载:笔者一直从事中文自动分词的研究,其中一个朴素的想法就是该研究对WWW上的中文搜索引擎一定会有帮助,但又常常为开放环境下自动分词难以达到满意的精度而苦恼。近来忽似有所悟,在此将点滴心得写出来,以抛砖引玉。一个关于中文搜索引擎的“有趣”体验 先讲一段笔者的“有趣”经历。一日,偶然想在WWW上查找与日本“和服”有关的资料。打开Yahoo China(http://cn.yahoo.com/)的转载 2005-07-31 22:41:00 · 1493 阅读 · 0 评论 -
网络搜索引擎与智能代理技术
互联网在全球范围内的迅速发展与成熟,促使社会各领域信息飞速膨胀,为人们查找、获取有用信息提供了丰富的信息源,但也给信息的准确定位提出了挑战。提供网上资源的检索是网络信息服务的重要内容之一,加之现代人也对信息把握的正确性和全面性提出了越来越高的要求,因此,当务之急是开发性能优越的网络信息检索工具。1993年,第一批搜索引擎诞生后,发展至今已经逐渐走向成熟,伴随着计算机智能化研究的不断发展,具有适应性转载 2005-07-31 22:46:00 · 1566 阅读 · 0 评论 -
搜索引擎技术发展观系列之二
搜索引擎技术发展观系列之二 document.title="搜索引擎技术发展观系列之二 - "+document.title随着“眼球经济”席卷互联网,成千上万的资金迅速流向最能吸引眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期,成为未来几年最具发展潜力的产业之一。 当你登录某一个网站,在互联网上搜索某一类内容,希望得到最新、最全面的信息,你需要等待多长时间? 几年转载 2005-07-31 23:37:00 · 1528 阅读 · 0 评论 -
搜索引擎面面观 技术系列之一
搜索引擎面面观 技术系列之一 document.title="搜索引擎面面观 技术系列之一 - "+document.title因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着W转载 2005-07-31 23:39:00 · 1535 阅读 · 0 评论 -
PHP搜索引擎技术核心揭密[转]
PHP搜索引擎技术核心揭密 文章来源:奕天锐新时间:2004-5-20 14:01:37 编者按:这是一篇精彩的编程教学文章,不但详细地剖析了 搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。 谈到网页搜索引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术原创 2005-07-31 23:21:00 · 1064 阅读 · 0 评论 -
搜索引擎技术及趋势
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全转载 2005-07-26 22:19:00 · 1929 阅读 · 0 评论 -
搜索文摘
为什么Google不可能委身微软?《福布斯》封面文章:Google创造互联网成功奇迹综述:Google的中国十字路口 中文搜索引擎的十大误区信息检索的核心支撑技术网上搜索的加速方法综述:大鱼Google面对问题原创 2005-07-27 14:00:00 · 1141 阅读 · 0 评论 -
基于JAVA技术的搜索引擎的研究与实现
基于JAVA技术的搜索引擎的研究与实现 目录 目录.........................................................................................................转载 2005-07-27 23:25:00 · 2097 阅读 · 1 评论 -
汉语分词在中文软件中的广泛应用
一、 为什么需要汉语分词我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。” [1], 我们还知道,“词是最小的能够独立活动的有意义的语言成分。”[2] 然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。 以拼音输入中的同音词自动辨识为例,据转载 2005-08-05 00:53:00 · 1362 阅读 · 0 评论 -
浅谈互联网信息挖掘技术
章成敏 章成志中国药科大学图书馆 (南京农业大学信息管理系)摘 要 本文就互联网信息挖掘技术进行了简介,对网络信息挖掘中的关键技术、系统流程进行了阐述,结合农业网络信息挖掘系统的开发及应用,指出网络信息挖掘的应用前景。关键词 数据挖掘 互联网 网页 信息提取 About the WDM Technology Zhang Chengzhi (Department of Informati转载 2005-08-05 01:41:00 · 1678 阅读 · 0 评论 -
汉语自动分词研究评述『转』
【标题】汉语自动分词研究评述【原文出处】当代语言学【原刊期号】200101【标题注释】本项研究得到国家自然科学基金(项目号:69705005)和国家重点基础研究发展规划项目(项目号:G1998030507)的资助。【作者】孙茂松/邹嘉彦【作者简介】孙茂松,清华大学 邹嘉彦,香港城市大学 孙茂松,100084 北京.清华大学计算机系 Email:lkc-dcs@mail.tsinghua原创 2005-08-05 00:52:00 · 2040 阅读 · 0 评论 -
中文搜索引擎技术揭密: 中文分词(三)
中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典转载 2005-08-05 01:35:00 · 1124 阅读 · 0 评论 -
第三代搜索引擎何去何从?
这是偶在优快云上看到的一篇有关搜索引擎的文章,原文地址:http://news.youkuaiyun.com/news/newstopic/9/9719.shtml一度被冷落的搜索引擎终于走到了前台,尽管如此,新一代搜索引擎取代旧搜索引擎的历史依然会继续演绎,以Google为代表的第二代搜索引擎似乎又走到了这个当口。第三代搜索引擎将向何处去?而在技术过渡的进程中,那些曾经跨过前一个关口的胜利者们,这一次转载 2005-08-17 02:17:00 · 1743 阅读 · 0 评论 -
搜索引擎探讨
一,GOOGLE简介 Google(www.google.com)是一个搜索引擎,由两个斯坦福大学博士生Larry Page与 Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代 Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。 98年至今,GOOGLE已经获得30多项业界大奖转载 2005-04-19 21:16:00 · 1508 阅读 · 0 评论 -
第二代搜索引擎—大量应用人工智能是标志
第二代搜索引擎厂商的特点是只做后台技术的提供者,这是美国互联网发展的教训。因为网络最初发展时最迫切需要的是搜索,于是同时出现了许多搜索引擎,但是后来各厂商认识到作为独立公司单独开发搜索引擎不能维持长期发展,于是又都发展成门户,提供了许多别的内容,但它们很快发现搜索不像新闻一样没有什么技术含量。而作为一个公司,则要同时肩负两个任务,一是创建转载 2005-04-26 15:07:00 · 1224 阅读 · 0 评论 -
目前搜索引擎主要检索服务【转】
目前主要一些搜索引擎提供的检索服务有: 1)目录与关键词检索相结合(Browsing & Searching Integration)这种类型的检索工具的典型代表是sohu(http://www.sohu.com)。 2)精确检索(Precise Search)精确检索有两种方法,一种是用受控词表,另一种是用XML技术。3)自然语言检索(Natural Language Search)自然语原创 2005-04-26 16:25:00 · 1625 阅读 · 0 评论 -
网页爬虫汇总
网络爬虫,你知道多少? 网页爬虫汇总 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。http://crawler.archive.org/WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动转载 2009-10-27 23:13:00 · 2167 阅读 · 0 评论