
搜索引擎与P2P
文章平均质量分 59
仰望星空WU
这个作者很懒,什么都没留下…
展开
-
P2P查找发现技术
转载声明:本博客文章允许自由转载, 但转载需注明作者,出处作者:denny wqf363@hotmail.com Nov 12,2006 16:26 出处:www.huntmine.com一 Kademlia(KAD)网络Kademlia , Serverless network(无服务器网络)。 一个点对点(P2P)的键, 值>元组存储和查询系统。 Kademlia使用平原创 2006-11-12 16:27:00 · 6596 阅读 · 0 评论 -
寻找文件下载源的多种方式
p2p研究中,主要的技术问题有一:节点的发现与通讯策略;二 文件上传下载的策略;其中文件能否下载是关系到用户满意度的一个重要指标。那么用户如何发现文件源则成了本文的研究对象。 一)集中式请求: 用户发现文件源,在第一代的p2p软件也是最常用最有效的方法是:到集中式的文件目录服务器获取文件源的地址信息及文件信息(由服务器过滤出在线用户);然后客户端通过上述信息向目标提供源发起请求,建立连接原创 2006-11-13 12:31:00 · 2252 阅读 · 0 评论 -
搜索引擎的体系架构
参考文献:http://www.stlchina.org/twiki/bin/view.pl/Main/SEStructSys搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。 从互联网上抓取网页. 利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的原创 2006-12-19 12:20:00 · 4001 阅读 · 0 评论 -
搜索引擎的核心内容
5.1 搜索引擎数据的索引---倒排表 参考文献:http://my.opera.com/lau_jia/blog/show.dml/408557数据的索引分为三个步骤:网页内容的提取(网络蜘蛛)、词的识别(分词算法)、标引库的建立。目前主流的标引技术有三种,倒排文档、后缀数组和签名档。后缀的方法虽然快(超快),但是其维护困难,代价相当高,不适合搜索引擎的索引。签名档是一种很好原创 2006-12-20 20:19:00 · 2235 阅读 · 0 评论 -
网页元素meta、网站与搜索引擎的互动
一 robots.txt 什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。搜索引擎遵循Robots协议(详细内容原创 2007-01-09 21:28:00 · 1166 阅读 · 0 评论 -
搜索引擎开发经验
一 查询子系统1)逻辑表达式综合的搜索引擎通常支持逻辑与,逻辑或,逻辑非这三种操作.多个查询词的时候要进行逻辑操作,通常空格默认为&,如果在多个查询结果前进行预排序,那么就可以把原来复杂的逻辑操作转为有序集合的合并操作,时间复杂度仅为O(m+n).2)排序a)文本排序文本内容是最重要的依据,而文本内容在词汇的集合,因此排序主要考虑到文本词汇的权重,涉及到的因素有:查询词的邻近关系,命中位置(包原创 2008-05-21 12:03:00 · 2883 阅读 · 1 评论 -
从google产品来看搜索引擎需求
1)搜索需求人human 关键字key 信息infomation 2)网页搜索搜索中最成熟的技术,从关键字找到信息,使用倒排索引这种极有效果的索引格式;其它MP3搜索,新闻搜索等都是其一个子项,要么是限制站点的站内搜索,要么就是对时间特别敏感,有时效性; 3)网页目录导航这是从信息中抽取关键字,自动网页分类技术; 用到的是数据挖掘技术,这个也比较成熟了.首先建原创 2008-05-21 12:57:00 · 2818 阅读 · 0 评论 -
google数学之美系列
Google 黑板报 — 系列一 — 统计语言模型 http://googlechinablog.com/2006/04/blog-post.html 系列二 — 谈谈中文分词 http://googlechinablog.com/2006/04/blog-post_10.html 系列三 — 隐含马尔可夫模型在语言处理中的应用 http://googlechinablog.com/2原创 2008-05-22 18:40:00 · 4588 阅读 · 2 评论