
4. 信息检索技术
文章平均质量分 73
Kangsheng
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文搜索引擎技术揭密:排序技术(二)
来源:e800.com.cn PageRank揭密 PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。说的更白话一点:张三在谈话中提到了张曼玉,李四在谈话中也提到张曼玉,王五在谈话中还提到张曼玉,这就说明张曼玉一定是很有名的人。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、E、F中都链接了A,那么说明A网页是最重要的原创 2005-03-19 11:16:00 · 1907 阅读 · 0 评论 -
中文搜索引擎技术揭密:排序技术(五)
来源:e800.com.cn 排序技术的发展趋势 各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。专业人士认为,目前的搜索引擎排序算法上还存在两大不足。 一、没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也是许原创 2005-03-19 11:14:00 · 1642 阅读 · 0 评论 -
在应用中加入全文检索功能 ——基于Java的全文索引引擎Lucene简介
作者: 车东 Email: chedongATbigfoot.com/chedongATchedong.com版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明http://www.chedong.com/tech/lucene.html关键词:Lucene java full-text search engine Chinese word segment内容摘要:原创 2005-03-19 12:30:00 · 1697 阅读 · 0 评论 -
平移算法简介
卢亮 : 六翼的天使 在开发Booso新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用“平移”算法来实现。"平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。例如我们有两个文章的标题:"报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"http://tech.sina.com.c原创 2005-03-19 12:25:00 · 2255 阅读 · 0 评论 -
为自己的系统搞个全文搜索
作者:gdsean(原作) 在本文我又提到lucene了,在java业界,提到全文检索,几乎没有什么人不知道它。用google搜索一下,满世界都是有关资料。具有代表性的就是车东的“基于Java的全文索引引擎Lucene简介”,我要写的也就只有最简单的三板斧,再加上支持中文的ChineseAnalyzer以及按照时间排序的搜索结果排序方法。这些都可以在其他地方找到相关资料,我只是把他们提出来,作原创 2005-03-19 12:23:00 · 1553 阅读 · 0 评论 -
排序算法小结
排序小结 排序算法是一种基本并且常用的算法。由于实际工作中处理的数量巨大,所以排序算法对算法本身的速度要求很高。而一般我们所谓的算法的性能主要是指算法的复杂度,一般用O方法来表示。在后面我将给出详细的说明。 对于排序的算法我想先做一点简单的介绍,也是给这篇文章理一个提纲。 我将按照算法的复杂度,从简单到难来分析算法。 第一部分是简单排序算法,后面你将看到他们的共同点是算法复原创 2005-03-19 11:24:00 · 1414 阅读 · 0 评论 -
中文搜索引擎技术揭密:排序技术(一)
来源:e800.com.cn 随着“眼球经济”席卷互联网,成千上万的资金迅速流向最能吸引浏览着眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期,成为了未来几年内最具发展潜力的产业之一。随着Google、百度、中国搜索等各具特色的搜索引擎逐渐成为人们最常用的网络工具,企业对搜索引擎的注意力也从“观察”升级为“动武”。 随着市场容量和使用者人数的不断激增,如何完善搜索功能使之更加公平、原创 2005-03-19 11:17:00 · 1972 阅读 · 0 评论 -
中文搜索引擎技术揭密:排序技术(三)
来源:e800.com.cn 其他方法 HillTop算法: HillTop同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。HillTop究竟原理如何,值得Google如此青睐? 其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的原创 2005-03-19 11:16:00 · 1952 阅读 · 0 评论 -
智能信息处理系统内核实现
智能信息处理系统内核实现程 军1 智能信息处理现状简介目前网上推出的各种新型服务模式,如智能Agent,智能检索,信息挖掘,信息推送,信息导航,知识发现等功能,其核心问题之一是如何解决信息的自动分类。关于信息的自动分类技术,主要有两种方法:一种是以美国Salton教授提出的向量空间模型(Vector Space Mode, 简称VSM)理论为基础;一种是基于Agent的超文本分类方法,其基础为自适原创 2005-03-19 12:21:00 · 1945 阅读 · 0 评论