
搜索引擎
colworld
这个作者很懒,什么都没留下…
展开
-
Web搜索引擎设计和实现分析(转)
一、引言 随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的"Rich Data, Poor Information"。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。 现在在网上的搜索引擎也已经有很多,比较著名的有AltaVista, Yahoo, InfoSe...2007-04-19 10:18:26 · 381 阅读 · 0 评论 -
可扩展搜索引擎的四种设计方案(转)
对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了.那么分布式搜索引擎的最主要的核心问题是哪些呢?1. 分布的信息获取和计算以及对此进行的数据统一这里面包括爬虫/或者相应的数据获取...2007-04-20 07:47:29 · 616 阅读 · 0 评论 -
nutch应用-安装与使用(转)
原文 http://blog.sina.com.cn/u/5595d514010008ionutch是一个非常不错的项目,由于最近我需要对一些内部的文档和站点建一个search的站点,所以又开始了nutch的旅程。不过这次是坎坎坷坷, 尽把问题出在了小地方了。当然,也有很久没有再用过nutch了,之前哪次还是一年前的事了。现在的0.8.1变化也是很大。本文所讲述的版本都是基于 0.8.1来讲的。...2007-04-20 07:58:30 · 121 阅读 · 0 评论 -
Map Reduce - the Free Lunch is not over?(转)
微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and Bill ta...2007-04-21 15:54:07 · 106 阅读 · 0 评论 -
Introduction to Nutch, Part 1: Crawling(转)
Nutch is an open source Java implementation of a search engine. It provides all of the tools you need to run your own search engine. But why would anyone want to run their own search engine? After all...2007-04-24 19:05:38 · 303 阅读 · 0 评论 -
Hadoop-- 海量文件的分布式计算处理方案(转)
Hadoop 是Google MapReduce的 一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以 不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的 模式允许程序员可以不需要有...2007-05-15 10:09:30 · 97 阅读 · 0 评论 -
google的技术基石(转)
如果说Google的搜索引擎是免费的早餐,Gmail们是免费的午餐的话, http://labs.google.com/papers/ 就是Google给开发人员们的一份免费的晚餐。 不过,咋看着一桌饭菜可能不知道从哪吃起,在自己不熟悉的领域啃英文也不是一件愉快的事情。一、一份PPT与四份中文翻译 幸好,有一位面试google不第的老兄,自我爆发搞了一份Goo...2007-05-15 10:28:06 · 220 阅读 · 0 评论