
信息检索
低调小一
Ubuntu重度患者,曾经的服务器开发工程师,如今正在深入学习到Android Framework
展开
-
robot禁止搜索引擎收录的方法
robots.txt文件搜索引擎使用sphider程序自动访问互联网上的网页并获取网页信息。sphider在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定sphider在您的网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分原创 2013-06-09 14:49:31 · 4032 阅读 · 0 评论 -
信息索引导论学习笔记(1)——布尔检索
信息检索信息检索(Information Retrieval,简称IR):从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程信息检索按照规模分类:以web搜索为代表的大规模级别小规模级别,典型示例为个人信息检索中等规模级别,面向企业、机构和特定领域的搜索倒排索引顺序扫描:这种线性扫描就是一种原创 2013-06-09 17:49:40 · 2828 阅读 · 0 评论 -
信息检索导论学习笔记(2)——词项词典及倒排记录表
回顾构建倒排索引的主要步骤收集待建索引的文档对这些文档中的文本进行词条化对第二步产生的词条进行语言学处理,得到词项根据词项对所有文档建立索引所谓词条化(tokenization):将原始的字符流转换成一个个词条(token)的过程文档分析及编码转换生成字符序列语言识别,编码方式识别,文件格式等处理,生成字符序列文档单位的选择合理的选择“索引粒原创 2013-06-08 22:00:14 · 5304 阅读 · 0 评论 -
信息检索导论学习笔记(3)——词典及容错式检索
词典搜索的数据结构如上图,倒排索引记录表构建好了。对于查询请求“Brutus”,我们首要任务是确定查询词项“Brutus”是否在词典的词项词汇表中,如果在,则返回该词项对应的倒排记录表的指针。词汇表的查找操作往往采用一种称为词典(dictionary)的经典数据结构,并且主要有两大类解决方法:哈希表方式和搜索树方式哈希表方式每个词项通过哈希函数映射成一个整数,映原创 2013-06-25 21:48:27 · 3457 阅读 · 0 评论 -
信息检索导论学习笔记(6)-文档评分,词项权重计算及向量空间模型
参数化索引及域索引迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的是和文档相关的一些特定形式的数据,比如文档的作者,标题以及出版日期等等.问题:考虑查询"寻找由William Shakespeare 于 1961年撰写,其中包含短语alas poor Yor原创 2013-08-20 15:47:36 · 3710 阅读 · 0 评论