
搜索引擎
文章平均质量分 88
xsc2001
忠心愿为中国的软件事业贡献自己一份微薄的力量!对技术的热爱是发自内心的!
展开
-
搜索引擎经验总结
这里是一点我在学习和开发搜索引擎过程中的一点学习和经验总结,文中讲述了蜘蛛、切词、索引、查询器等名模块的一些概述和细节,希望能给搜索引擎中的初学点的一点帮助,对于那些高手也能够带来一点点启发的帮助!这是我在2004年学习和开发搜索引擎相关东西时的一点总结,可能比较肤浅,最近还是一直在搞这方面的研究,相对于这篇文章又有了一些新的总结,等以后有时间再写一篇和大家分享!(有些图是没有办法显示的,因为原创 2006-04-03 14:39:00 · 14428 阅读 · 8 评论 -
对于搜索引擎未来的一种设想
人们都说21世纪是搜索的世界,确实搜索引擎已经是我们生活中的一种必备工具了,在四五年前搜索引擎对大多数人来说都是一种很神秘的东西,而如今搜索引擎却成了大众工作和办公的一种必须品,就象办公软件office、金山词霸一样的深入人心。各大搜索巨头都在展开激烈的竞争,都想在这一大市场中占领一席之地。这对广大用户来说是一种好事,毕竟会得到更好的搜索服务。而传统的搜索引擎已经不能完全满足用户的搜索需求,那么下原创 2006-04-08 21:09:00 · 2050 阅读 · 2 评论 -
关于切词程序的一点启发
文本切词是中文信息处理的基础,除了英文以外大多和语言如中文、韩文、日文都是需要切词的。由于不同的编码形式给我们的切词带来了不便,ANS码是一个字符一个字符,而GB2312等都是两个字节表示一个字符。一般一个字符是否是多字节编码可以通过最高位来判断,如果最高位是0则是ANS码,否则多字节编码。通常人们进行切词都是将待切分文本转换成Unicode再进行切分,在实际中我经过实验这种方法其实不是很好,效率原创 2006-04-30 15:13:00 · 2230 阅读 · 3 评论 -
全文检索系统中海量数据的增量索引
全文检索系统中如果每天处理至少10多万条的文本数据,那么如何对这些新增加的数据进行增量索引并进行有效地管理是整个系统的关键。通过采用联合表或者并行表的方式来管理这些数据,但是每一个并行表的粒度应该设多大,设多少个子表或者并并行表都需要系统的应用规模来定。如果并行表的粒度过大,即使是在索引过程中采用的是拉链索引的方式来组织索引数据,也是需要大量的索引数据的遍历,若不是拉链更需要索引数据的大量移动来进原创 2006-05-02 23:30:00 · 1965 阅读 · 0 评论 -
搜索引擎开发日志
这两天一直在构思关于图片搜索的的实现,在目前蜘蛛的基础上增加图片抓取和Flash抓取的功能,这样就可以实现图片搜索和Flash搜索功能。对于图片的抓取已经实现,而对Flash的实现相对来说是比较麻烦一些,不过也不是太难。对这些对象我都是以二进制对象的形式存储到数据库中去了,目前采用的是中国知网的KBase系统,通过简单的功能性测试已经通过了,由于图片数据都可能比网面数据大,因则我在蜘蛛里抓取时采用原创 2006-04-27 16:52:00 · 1608 阅读 · 0 评论 -
数学之美 系列九 -- 如何确定网页和查询的相关性
发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关转载 2006-06-30 14:12:00 · 1566 阅读 · 0 评论 -
词串相似度计算公式
词串相似度计算公式 词串相似度计算公式:Sim(S1,S2)=α×Match(S1,S2)Num(S1)+Match(S1,S2)Num(S2)/2+β×γ×(∑Match(S1,i)∑m1i+∑Match(S2,j)∑n1j/2(9)S1,S2分别表示文本标引词串和知识库中的词串;α:两词串中含有相同元素的转载 2008-05-24 10:43:00 · 2414 阅读 · 3 评论