
全文搜索
popkiler
这个作者很懒,什么都没留下…
展开
-
衡量搜索引擎的性能
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档集中检索出与用户查询相关的文档.所以我们可以用衡量传统信息检索系统的性能参数一查全率(Recall)和查准率(Precision)–来衡量一个搜索引擎的性能。 查全率是检索出的相关文档数和文档集中所有的相关文档数的比率.衡量的是检索系统(搜索引擎)的查全率; 查准率是检索出的相关文原创 2006-04-09 09:52:00 · 2839 阅读 · 0 评论 -
搜索分类
搜索分类开门贴,呵呵!记得在99年开始上网,那时候网站还很少,基本上还是靠看电脑报之类的杂志报纸来回去最新的网站信息,现在却发现不得不依靠搜索来寻找自己需要的材料,而不是去找那个网站了。个人认为现在网络上的太多东西存在重叠,以至于大家不得不依靠搜索给自己安上一双慧眼。Google的成功是必然的,顺应了技术发展。那下一步又是什么呢?我想可能会是分类搜索,基于特定内容的搜索,毕竟Google给我们转载 2007-08-20 11:03:00 · 757 阅读 · 0 评论 -
网页去重:搜索引擎重复网页发现技术分析(转载)
网页去重:搜索引擎重复网页发现技术分析(转载)2007-05-23 11:50原载:http://hi.baidu.com/xiezuo/blog/item/03820cd7c6c920dca044dfc2.html一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作转载 2007-08-24 14:44:00 · 1399 阅读 · 0 评论 -
网页去重:搜索引擎重复网页的算法(转载)
网页去重:搜索引擎重复网页的算法(转载)2007-2-28 11:26:59搜索引擎算法之复制网页搜索引擎复制网页的算法春节这几天,看了一些搜索引擎基本原理的书,下面把了解到关于复制网页的算法写下来。关键词:搜索引擎,复制网页,算法,信息指纹,Fingerprint,关键词搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页转载 2007-08-24 14:43:00 · 3964 阅读 · 0 评论