信息检索
NoTqqa
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
信息检索——索引压缩
索引压缩目录索引压缩为什么需要压缩?两种压缩方式:信息检索中词项的统计特性Heaps定律Zipf定律词典压缩用定长数组来存储词典中的词项。将词典看成单一字符串的压缩方法按块存储前端编码倒排记录表的压缩可变字节编码VB编码gamma 编码索引压缩:对词典和倒排记录表这两个数据结构进行压缩。为什么需要压缩?使用更少的磁盘空间节省资金在内存中存放更多信息提高速度提高数据从磁盘传输到内存的速度读取压缩数据|解压缩 ...原创 2020-11-07 21:01:44 · 2041 阅读 · 0 评论 -
信息检索——索引构建
索引构建本章内容:硬件基础 语料库 大规模倒排索引构建 基于块的索引构建BSBI 内存式单遍扫描索引构建SPIMI分布式索引MapReduce 动态索引目录索引构建硬件基础语料库大规模倒排索引构建基于块的排序索引BSBI内存式单遍扫描索引SPIMI分布式索引MapReduce动态索引索引构建:建立倒排索引的过程index construction索引器:构建...原创 2020-11-07 13:42:42 · 1607 阅读 · 0 评论 -
信息检索——词典及容错式检索
词典及容错式检索目录词典及容错式检索词典搜索的数据结构词典的数据结构中存储了 词项词汇表,文档频率,每个倒排记录表的指针....哈希表树二叉搜索树B树B+树数据结构通配符查询*轮排索引(一般的通配符查询)支持通配符查询的K-gram索引(双联词索引)处理通配符查询拼写校正词项独立校正编辑距离k-gram重合度方法基于发音的校正技术本章内容:词典搜索的数据结构(哈希表和树) 通配符查询(轮排索引/k-gra...原创 2020-11-06 22:36:04 · 1239 阅读 · 0 评论 -
信息检索——词项词典及倒排记录表
词项词典及倒排记录表本章内容收集词项词典的预处理收集文档 词条化 应该把哪些词放入索引?倒排记录表快速处理:跳表 含位置信息的倒排记录表和短语查询分析文档需要处理每一个文档的格式及语言 格式:PDF/excel/word/HTML... 语言 字符集:utf-8/gbk/gb2312....索引粒度可取的做法是将每章或每段看成一个微型文档来建立索引,匹配单位的粒度越小,用户就越容易在文档中找到相关的段落。索引粒度太小,...原创 2020-11-06 17:01:01 · 990 阅读 · 0 评论 -
信息检索——倒排索引和布尔查询
线性扫描 词项-文档关联 倒排索引 查询处理AND 布尔查询 自由文本查询 查询优化举例:查找《莎士比亚》中的人名1 AND 2 but NOT 3线性扫描grepping:从头到尾阅读该全集,对每部剧本都留心是否包含1和2不包含3缺点:太慢不灵活无法排序词项-文档关联缺点:太大了而且99.8%的元素都为0更好的方法是只记录原始矩阵中1的位置行:文档向量列:词项向量1或0:1表示存在...原创 2020-11-06 14:37:10 · 2014 阅读 · 0 评论 -
信息检索——概述
**信息检索:是一门不断发展并和其他领域、技术不断融合的学科。基于语言建模的的信息检索模型、基于机器学习的检索结果排序方式、检索结果的Snippet生成、聚类标签生成、XML检索、搜索广告、网页作弊等等。信息检索information retrieval 简称IR信息获取信息检索是从 大规模 非结构化数据的集合中找出满足用户信息需求的资料的过程。非结构化数据(通常是文本)集合(通常保存在计算机上)满足用户信息需求的资料(通常是文档)信息检索规模的分类Web搜索——大规模个人信息检索—原创 2020-11-06 14:25:25 · 1033 阅读 · 0 评论
分享