
个性化搜索引擎
文章平均质量分 90
彷徨的石头
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搜索引擎
搜索引擎软件可以分成以下几个模块:-- 攫取(fetching):就是把被指向的网页下载下来。 -- 数据库:保存攫取的网页信息,比如那些网页已经被攫取,什么时候被攫取的以及他们又有哪些链接的网页等等。 -- 链接分析:对刚才数据库的信息进行分析,给每个网页加上一些权值(比如PageRank,WebRank什么的),以便对每个网页的重要性有所估计。不过,在我看来,索引那些网页标记(An转载 2012-03-26 10:59:13 · 482 阅读 · 0 评论 -
SVD分解的应用——矩阵运算和文本处理中的分类问题
在自然语言处理中,最常见的两类的分 类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种 分类问题都可用通过矩阵运算来圆满地、同时解决。为了说明如何用矩阵这个工具类解决这两个问题的,让我们先来来回顾一下我们在余弦定理和新闻分类中介绍的方法。 分类的关键是计算相关性。我们首先对两个文本计算出转载 2012-08-01 10:05:23 · 1475 阅读 · 0 评论 -
非常好的协同过滤入门文章
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助转载 2012-08-01 10:07:45 · 1092 阅读 · 0 评论 -
[推荐系统]COLLABORATIVE FILTERING 学习总结
Collaborative filtering, 即协同过滤,是一种新颖的技术。最早于1989年就提出来了,直到21世纪才得到产业性的应用。应用上的代表在国外有Amazon.com,Last.fm,Digg等等。最近由于毕业论文的原因,开始研究这个题目,看了一个多星期的论文与相关资料之后,决定写篇总结来总结一下最近这段时间资料收集的成果。 在微软1998年的那篇关于协同过滤的论文[1]中,转载 2012-08-01 10:08:50 · 1035 阅读 · 0 评论 -
个性化搜索引擎调研
一、为什么要做个性化搜索引擎?每天网上爆发的信息量已经超过了我们能接受的范围,只有因人而异的个性化搜索才能帮助用户找到所需信息。传统信息检索具有通用性,检索系统不可能满足不同背景、不同目的和不同时期的查询请求,一个关键字查询词对所有用户呈现的搜索结果均相同。Google的美女副总裁Marissa Mayer说“我们认为,2020年的搜索引擎赢家可能会更加了解它的用户。”,“即便现在我们转载 2012-09-01 14:35:10 · 1837 阅读 · 0 评论 -
搜索引擎网页排序算法
2.1基于词频统计——词位置加权的搜索引擎 利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。 1)词频统计 文档的词频是指查询关转载 2012-09-01 14:24:41 · 15767 阅读 · 0 评论 -
分词器,使用中文分词器,扩展词库,停用词
1. 常见的中文分词器有:极易分词的(MMAnalyzer) 、"庖丁分词"分词器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。 使用方式都类似,在构建分词器时 Analyzer analyzer = new [My]Analyzer();转载 2012-09-04 14:21:32 · 4093 阅读 · 0 评论 -
搜索引擎技术之概要预览
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最基本的搜索引擎的概念谈起,到全文检索的概念,由网络蜘蛛,分词技术转载 2012-10-18 10:50:54 · 1031 阅读 · 0 评论 -
传统向量空间模型的缺陷
传统向量空间模型的缺点: 1、它基于关键字的文档处理方法,依据的是词频信息,两个文档的相似度取决于共同词汇的数量,无法分辨自然语言的语义模糊性。 2、它假设词与词之间是相互独立的,一个关键字唯一代表一个概念或语义单元,而实际情况是文档存在很多的一词多义和同义词现象,因此这种假设很难满足实际情况。 3、文档中词与词往往存在一定的关联性,信息检索的本质就是语义的检索转载 2013-01-31 15:33:23 · 4743 阅读 · 0 评论 -
海量数据处理常用思路和方法
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1转载 2012-08-01 10:11:34 · 739 阅读 · 0 评论 -
搜索引擎代码资源
一、搜索引擎/网络蜘蛛程序代码国外开发的相关程序1、Nutch官方网站 http://www.nutch.org/中文站点 http://www.nutchchina.com/最新版本:Nutch 0.7.2 ReleasedNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立转载 2012-07-31 21:24:59 · 1789 阅读 · 0 评论 -
数据挖掘书籍
Web数据挖掘http://book.douban.com/subject/3639345/集体智慧编程http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公转载 2012-07-25 15:22:48 · 552 阅读 · 0 评论 -
一个关键字标红的通用类
Java代码 import java.lang.reflect.Array; import java.util.Arrays; import java.util.HashSet; import java.util.Iterator; import java.util.Set; /** * 文本坐标记用的 * tagBegin是开始标记 * tagEn转载 2012-03-26 09:36:15 · 1535 阅读 · 0 评论 -
[转载]大数据量,海量数据 处理方法总结
原文地址:大数据量,海量数据 处理方法总结(转载)作者:秋金遇水 最近有点忙,稍微空闲下来,发篇总结贴。 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题转载 2012-03-26 09:32:45 · 588 阅读 · 0 评论 -
个性化搜索引擎调研
一、为什么要做个性化搜索引擎?每天网上爆发的信息量已经超过了我们能接受的范围,只有因人而异的个性化搜索才能帮助用户找到所需信息。传统信息检索具有通用性,检索系统不可能满足不同背景、不同目的和不同时期的查询请求,一个关键字查询词对所有用户呈现的搜索结果均相同。Google的美女副总裁Marissa Mayer说“我们认为,2020年的搜索引擎赢家可能会更加了解它的用户。”,“即便现在我们转载 2012-03-22 08:38:59 · 1005 阅读 · 0 评论 -
搜索的基本步骤
1998年的基本步骤与现在没有什么区别,现在只是提高了每一步的效率和计算性能。 传统搜索的基本步骤: 1、爬取:收集要搜索的文档。 2、解析:将各种文档(XML、HTML、Word、PDF)转换成统一的结构,即索引中的各个域,这些域都是纯文本形式的。 3、分析:解析器能从各个文档中提取出文本内容,但是这些转载 2012-05-25 20:13:47 · 2272 阅读 · 0 评论 -
为什么索引只是搜索的一个重要步骤?
Lucene能够快速地索引文档,并对索引进行搜索,Lucene的使用非常方便,效果也很好。由此,Lucene已经如此灵活高效,还有什么可担心的?原因就是垃圾网页的存在。垃圾网页可能会被排名到前面,真正的相关网页很快就会淹没在垃圾网页的海洋中。 互联网上的网页不同于数据库或硬盘上的文档,它是不受控制的。所以,精心炮制的欺诈网页可以让传统的IR技术毫无用处。如果搜索引擎仅仅依赖于传转载 2012-05-25 20:46:23 · 533 阅读 · 0 评论 -
从奇异值分解(SVD)看潜在语义索引(LSI)
1. SVD 简介 SVD中文称为“奇异值分解”,是一种矩阵分解方法。其公式如下: 定理:设A为m*n阶复矩阵,则存在m阶矩阵U和n阶矩阵V,使得: A = U*S*V’ 其中S=diag(σi,σ2,……,σr),σi>0 (i=1,…,r),r=rank(A)。 其中 A 矩阵是我们初始的特征矩阵,在文本挖掘中:A就是 t (ter转载 2012-07-15 16:32:49 · 4759 阅读 · 0 评论 -
LSI (Latent Semantic Indexing)隐语义索引简介
1. 引言自然语言文本中的词汇(术语)具有一词多义(polysemy)和一义多词(synonymy)的特点.由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西; 由于一义多词,基于精确匹配的检索算法又会遗漏许多用户想要的东西.下面是一个例子:设Doc1, Doc2, Doc3是三个文件. 一些术语在这三个文件中的出现情况如下表:转载 2012-07-15 16:33:41 · 1917 阅读 · 0 评论 -
欧氏距离与余弦
在计算相似度的时候,可以用到很多距离公式,例如:欧氏距离、余弦。通过最近的学习,我觉得,欧式距离是在任何情况下都可以用的公式,而余弦必须在一定条件下才能取代欧式距离。那么是什么条件呢?答案就是:两个向量都归一化后,才能用余弦计算其相似度。归一化就是指单位化,也就是说向量的模为1。 数学证明: 欧氏距离S^2=(x-y)·(x-y)=x^2+y^2-2|x||y|cos原创 2012-08-02 09:17:53 · 1139 阅读 · 0 评论 -
倒排索引
1.简介 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 倒排文件(倒排索引)的索引对象是文档或者文档集转载 2012-07-23 19:19:45 · 786 阅读 · 0 评论 -
Portal技术
Portal是基于web的应用,它主要作为信息系统的展现层,提供个性化、统一登录和内容整合的功能。整合就是将不同来源的信息集中展现在一张网页上。一个Portal可以具有很多个性化参数,用来调整为用户定制的内容。对于不同用户,一个Portal网页可能由多组不同的页面构件-portlet组成,portlet为不同用户生成不同的定制内容。Portal网页的内容如图1所示。Portal网页中的Portle转载 2013-10-30 10:42:28 · 914 阅读 · 0 评论