
信息检索
文章平均质量分 90
ccchenxi
努力过的时光才不会后悔
展开
-
《introduction to information retrieval》信息检索学习笔记1 布尔检索
第1章 布尔检索信息检索的定义:信息检索(IR)是大型非结构化性质(通常是文本)的集合(通常是文档)中寻找满足(通常存储在计算机上)的信息需求。1.1一个信息检索的例子问题描述:确定莎士比亚的作品集中,哪些戏剧包含了词汇Brutus和Caesar而不包含Calpumia。1.解决办法(1)最简单的文档检索形式:计算机通过文档进行线性扫描(Unix/Linux中文本扫描grep)缺点...原创 2018-09-23 00:02:20 · 4774 阅读 · 0 评论 -
《introduction to information retrieval》信息检索学习笔记3 词典和容错式检索
第3章 词典和容错式检索3.1 用于词典的搜索结构给定一个反向索引和一个查询,我们的第一个任务是确定每个查询词是否存在于词汇表中,如果是,则返回指向相应倒排记录表的指针。涉及在数据结构中定位词项。数据结构:字典(dictionary )两个解决方案:哈希表和搜索树(hashing and search trees.)1.哈希表:在查询时,我们分别对每个查询词进行哈希操作,并返回一个指向相...原创 2018-10-13 18:27:22 · 1757 阅读 · 0 评论 -
《introduction to information retrieval》信息检索学习笔记2 词项词汇和倒排记录表
第2章 词项词汇和倒排记录表回顾建立倒排索引的主要步骤:1.收集要索引的文档。2.词条化文本。3.对词条进行语言预处理,生成标准化词条。4.建立倒排索引,索引每个词项出现的文档。2.1文档描述和字符序列解码1.在文档中获取字符序列文档处理第一步:将文档中的字节序列转换成字符的线性序列(1)确定编码方案(可看作机器学习分类的问题,但通常通过启发式方法、用户选择或使用提供的文档元数据...原创 2018-10-09 21:33:10 · 1112 阅读 · 2 评论 -
《introduction to information retrieval》信息检索学习笔记4 索引结构
第4章 索引结构(Index construction)4.1 硬件基础知识(Hardware basics)√为了最大化数据传输速率,一起读取的数据块应在磁盘上连续存储。√操作系统通常读取和写入整个区块,常见的的块大小是8、16、32和64 KB(KB)。√从磁盘到内存的数据传输由系统总线处理,处理器可以在磁盘输入/输出过程中处理数据。√可在磁盘上存储压缩数据来加速数据传输。回顾倒排索...原创 2018-10-22 17:24:16 · 1397 阅读 · 0 评论