信息检索
NoTqqa
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
信息检索——索引压缩
索引压缩 目录 索引压缩 为什么需要压缩? 两种压缩方式: 信息检索中词项的统计特性 Heaps定律 Zipf定律 词典压缩 用定长数组来存储词典中的词项。 将词典看成单一字符串的压缩方法 按块存储 前端编码 倒排记录表的压缩 可变字节编码VB编码 gamma 编码 索引压缩:对词典和倒排记录表这两个数据结构进行压缩。 为什么需要压缩? 使用更少的磁盘空间 节省资金 在内存中存放更多信息 提高速度 提高数据从磁盘传输到内存的速度 读取压缩数据|解压缩 ...原创 2020-11-07 21:01:44 · 2041 阅读 · 0 评论 -
信息检索——索引构建
索引构建 本章内容: 硬件基础 语料库 大规模倒排索引构建 基于块的索引构建BSBI 内存式单遍扫描索引构建SPIMI 分布式索引MapReduce 动态索引 目录 索引构建 硬件基础 语料库 大规模倒排索引构建 基于块的排序索引BSBI 内存式单遍扫描索引SPIMI 分布式索引MapReduce 动态索引 索引构建:建立倒排索引的过程index construction 索引器:构建...原创 2020-11-07 13:42:42 · 1607 阅读 · 0 评论 -
信息检索——词典及容错式检索
词典及容错式检索 目录 词典及容错式检索 词典搜索的数据结构 词典的数据结构中存储了 词项词汇表,文档频率,每个倒排记录表的指针.... 哈希表 树 二叉搜索树 B树 B+树 数据结构 通配符查询* 轮排索引(一般的通配符查询) 支持通配符查询的K-gram索引(双联词索引) 处理通配符查询 拼写校正 词项独立校正 编辑距离 k-gram重合度方法 基于发音的校正技术 本章内容: 词典搜索的数据结构(哈希表和树) 通配符查询(轮排索引/k-gra...原创 2020-11-06 22:36:04 · 1238 阅读 · 0 评论 -
信息检索——词项词典及倒排记录表
词项词典及倒排记录表 本章内容 收集词项词典的预处理 收集文档 词条化 应该把哪些词放入索引? 倒排记录表 快速处理:跳表 含位置信息的倒排记录表和短语查询 分析文档 需要处理每一个文档的格式及语言 格式:PDF/excel/word/HTML... 语言 字符集:utf-8/gbk/gb2312.... 索引粒度 可取的做法是将每章或每段看成一个微型文档来建立索引,匹配单位的粒度越小,用户就越容易在文档中找到相关的段落。 索引粒度太小,...原创 2020-11-06 17:01:01 · 990 阅读 · 0 评论 -
信息检索——倒排索引和布尔查询
线性扫描 词项-文档关联 倒排索引 查询处理AND 布尔查询 自由文本查询 查询优化 举例:查找《莎士比亚》中的人名 1 AND 2 but NOT 3 线性扫描grepping: 从头到尾阅读该全集,对每部剧本都留心是否包含1和2不包含3 缺点: 太慢 不灵活 无法排序 词项-文档关联 缺点: 太大了 而且99.8%的元素都为0 更好的方法是只记录原始矩阵中1的位置 行:文档向量 列:词项向量 1或0:1表示存在...原创 2020-11-06 14:37:10 · 2013 阅读 · 0 评论 -
信息检索——概述
**信息检索: 是一门不断发展并和其他领域、技术不断融合的学科。 基于语言建模的的信息检索模型、基于机器学习的检索结果排序方式、检索结果的Snippet生成、聚类标签生成、XML检索、搜索广告、网页作弊等等。 信息检索information retrieval 简称IR 信息获取 信息检索是从 大规模 非结构化数据的集合中找出满足用户信息需求的资料的过程。 非结构化数据(通常是文本) 集合(通常保存在计算机上) 满足用户信息需求的资料(通常是文档) 信息检索规模的分类 Web搜索——大规模 个人信息检索—原创 2020-11-06 14:25:25 · 1033 阅读 · 0 评论
分享