
搜索引擎
文章平均质量分 87
tanruitian
这个作者很懒,什么都没留下…
展开
-
网络机器人(Robots)
网络机器人(Robots): 是福还是祸? Martijn Koster, NEXOR April 1995 [1997: Updated links and addresses] Codehunter[程式猎人]翻译 摘要 机器人在万维网上使用已经有一年多了(相对于1995年)。在这段时间中,它们担当着有用的任务,同时也对网络造成了很大的破坏。本文着重研究机器人在资源收寻方面的优势以及劣势。讨论原创 2006-07-15 21:58:00 · 3149 阅读 · 0 评论 -
搜索引擎学习资源收集
一、搜索引擎技术/动态资源、综合类1、卢亮的搜索引擎研究 http://www.wespoke.com/卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。2、laolublog 有不少来自国外的关于原创 2006-07-18 00:11:00 · 2081 阅读 · 0 评论 -
larbin使用说明
larbin是一种爬虫工具,我也是前段时间网上看到 Larbin 一种高效的搜索引擎爬虫工具 一文时才知道有这么个东西,初步认定,我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的,类似C嘛,我熟,可以自己改改,顺便学习一下C++(几年来的经验告诉我说:改别人的东西来学一种技术比从头写helloworld快很多)。于是开始了我艰辛的larbin试用之旅。 回头看看自己遇到的问原创 2006-07-15 21:55:00 · 2631 阅读 · 1 评论 -
介绍 Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。可以为什么我们需要建立自己的搜索引擎呢?毕竟我们已经有google可以使用。这里我列出3点原因: 透明度:Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引转载 2006-07-18 15:19:00 · 956 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛
中文搜索引擎技术揭密:网络蜘蛛 来源:e800.com.cn 搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了,更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。中文搜索引擎的“准”,需要保证搜索的前几十原创 2006-07-15 21:57:00 · 1006 阅读 · 0 评论 -
lucene简单例子
lucene的组成结构:对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入口 org.apache.Lucene.search/ 搜索入口 org.apache.Lucene.index/转载 2006-07-21 16:24:00 · 1375 阅读 · 0 评论 -
Lucene入门与使用
1.1 Lucene 历史 org.apache.lucene包是纯java语言的全文索引检索工具包。 Lucene的作者是资深的全文索引/检索专家,最开始发布在他本人的主页上,2001年10月贡献给APACHE,成为APACHE基金jakarta的一个子项目。 目前,lucene广泛用于全文索引/检索的项目中。 lucene也被翻译成C#版本,目前发展转载 2006-07-21 16:28:00 · 1186 阅读 · 0 评论