
信息检索
文章平均质量分 73
心灵排骨汤
The sole certainty is that tomorrow will surprise us all.
展开
-
7.2完整的搜索系统
提示:信息检索:搜索系统中的评分计算-完整的搜索系统文章目录完整的搜索系统补充概念字段域域索引搜索系统的组成查询词项的邻近性查询分析器搜索系统组成综合评分完整的搜索系统补充概念字段■我们经常希望检索这些元数据■如:寻找莎士比亚在1601年写的小说,文中包含alas poor Yorick这几个词●(Year=1601)就是一个字段●同样, (作者=莎士比亚)也是一个字段■按字段查询一般都属于联合查询●即每个域条件都满足域域是一个可以包含任意内容的区域,如:●题目●摘要原创 2021-11-30 19:39:02 · 289 阅读 · 0 评论 -
7.1搜索系统中的评分计算-结果排序的重要性与实现-精确查找top k和非精确查找top k
信息检索:搜索系统中的评分计算-结果排序的重要性与实现精确查找top k和非精确查找top k结果排序的重要性结果排序的实现精确top K检索及其加速方法tf和idf的存储倒排索引中词项频率存储精确top K检索及其加速方法加速方法一:快速计算相似余弦度加速方法二:提前终止计算结果排序的重要性展示顺序与用户操作关联很明显前几条浏览量和点击量远远超出其它内容。前面是文档1和查询相关度很高,排在前面浏览率极高;但是交换文档1,2内容后,现在不太相关的文档1仍然有30%浏览原创 2021-11-30 19:23:44 · 601 阅读 · 0 评论 -
6.4向量空间模型,余弦相似度计算
提示:信息检索:文档评分-词项权重计算-向量空间模型 第四部分:向量空间模型文章目录向量空间模型关联矩阵文档表示成向量Queries表示成向量向量相似度计算欧式距离?利用夹角代替距离文档长度归一化余弦相似度(query,document)※余弦相似度计算举例向量空间模型关联矩阵二值关联矩阵:词项-文档词频矩阵:词频-文档权重是前面的tf-idf权重:文档表示成向量|V|维向量空间,每一维都对应词项,文档是空间的点或向量。维度相当大,对于互联网来说,甚至达到千万维或更高原创 2021-11-28 16:52:12 · 6443 阅读 · 1 评论 -
6.3排序式检索 tf-idf权重计算
提示:信息检索:文档评分-词项权重计算-向量空间模型 第三部分:tf-idf权重计算文章目录tf-idf权重计算权重文档频率dfidf计算举例cf VS df※tf-idf权重tf-idf权重计算在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。权重罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的原创 2021-11-28 15:40:43 · 5543 阅读 · 0 评论 -
6.2排序式检索 词项频率
提示:信息检索:文档评分-词项权重计算-向量空间模型 第二部分:词项频率文章目录词项频率词袋模型词项文档计数矩阵词项频率tf词项频率回顾词项文档关联矩阵词袋模型不考虑词项在文档中出现的顺序。如“A is bigger than B”和“B is bigger than A”在词袋模型中是一样的。显然,这相对于位置索引呢是一种退步。词项文档计数矩阵考虑的是词项在文档中出现的次数,区别词项文档关联矩阵(只显示词项在文档中是否存在)。词项频率tf词项t在文档d中出现的次数记作:tf原创 2021-11-27 21:29:47 · 4505 阅读 · 1 评论 -
6.1排序式检索 评分
提示:信息检索:文档评分-词项权重计算-向量空间模型 第一部分:排序式检索文章目录排序式检索必要性分析:排序检索模型排序检索的基本—评分Query-document评分Jaccard系数排序式检索必要性分析:布尔查询对于大多数人来讲很不方便:大部分用户不能撰写布尔查询或认为需要大量时间训练;大部分用户不愿意逐条浏览众多的搜索结果。而布尔查询的结果经常不是过多就是过少。需要花一定时间构造一个合适的查询才可以获得可接受搜索数量上的结果。排序检索模型系统根据文档与查询的相关性排序返回文档集合原创 2021-11-26 18:49:58 · 410 阅读 · 0 评论 -
5.3倒排表压缩(可变长度编码,γ编码)
提示:信息检索:索引压缩-倒排表压缩文章目录倒排记录表的压缩压缩分析可变长度编码其它可变单位编码一元编码※γ编码※γ解码5总结字节 (Byte)是计量单位,表示数据量多少,是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。. 字符 (Character)计算机中使用的字母、数字、字和符号,比如’A’、‘B’、’$’、’&'等。. 一般在英文状态下一个字母或字符占用一个字节,一个汉字用两个字节表示。倒排记录表的压缩压缩的必要性:倒排记录表远大于词典,至少为10原创 2021-11-25 11:03:54 · 1385 阅读 · 0 评论 -
5.2词典压缩
提示:信息检索:索引压缩-词典压缩文章目录词典压缩定长数组存储字符串词典原理空间大小按块存储k越大压缩率越高,为什么不用更大的k?前端编码比较字节 (Byte)是计量单位,表示数据量多少,是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。. 字符 (Character)计算机中使用的字母、数字、字和符号,比如’A’、‘B’、’$’、’&'等。. 一般在英文状态下一个字母或字符占用一个字节,一个汉字用两个字节表示。词典压缩 压缩词典必要性:搜索从词典开始想把原创 2021-11-24 20:29:39 · 2085 阅读 · 0 评论 -
TCP可靠传输实现-滑动窗口协议
提示:计算机网络运输层部分:TCP可靠传输实现-滑动窗口协议初级示例(根据计算机网络(第七版)-谢希仁第五章5.4补充内容)>>滑动窗口5.6详细内容请戳(原创努力码字中,尽快补上链接)>>更多运输层内容第五章请戳(原创努力码字中,尽快补上链接)文章目录滑动协议: 发送方和接收方都具有一定容量的缓冲区,允许发送站连续发送多报文而不需要等待应答。 发送窗口就是发送端允许连续发送的报文的序号表,发送端可以不等待应答而连续发送的最大报文数称为发送窗口的尺寸 接收窗口是接原创 2021-11-23 08:50:07 · 970 阅读 · 0 评论 -
5.1索引压缩-词项的统计特性(Heaps定律、Zipf定律)
提示:信息检索:索引压缩文章目录回顾Heaps定律Zipf定律回顾Heaps定律一种对词项数目M进行估计的方法是采用Heaps定律: M=kT^b。 对RCV1文档集来说,虚线log10M = 0.49log10T + 1.64是基于最小二乘法的最佳拟合,则M= 101.64 * T0.49,所以k =101.64≈44, b=0.49对RCV1是一个很好的经验拟合. 对于前1,000,020个词条,Heaps定律会估计得到大约38,323个词项;而实际数目是38365,和估计值非常原创 2021-11-22 21:29:59 · 1331 阅读 · 0 评论 -
Map Reduce及其方法之一:分布式索引构建方法
分布式索引构建方法》大规模的索引构建必须使用一个分布式的计算机集群,比如Web》利用集群中的主控节点来指挥索引构建工作》将索引构建过程分解成一组并行的任务》主控计算机从集群中选取一台空闲的机器并将任务分配给它文档集分割:基于词项,文档分析器Parsers .主节点将一个数据片分配给一台空闲的分析服务器分析器依次读取文档并生成<词项,文档>对分析器将这些<词项,文档>对分成j个段每一段是按照词项首字母划分的一个区间,例如: a-f, g-p, q-z,这里j=3原创 2021-11-21 16:26:28 · 1990 阅读 · 0 评论 -
4索引构建
提示:信息检索-索引构建:就是建立倒排索引的过程文章目录索引构建索引构建基础基于块的排序索引方法内存式单遍扫描索引构建方法分布式索引构建方法动态索引构建方法其他索引类型索引构建索引构建:建立倒排索引的过程。索引器:构建索引的程序或计算机。前面见过的索引:硬件基础:索引构建基础先看下两个基本概念区别,下图所示:更多请戳>>点这里(1)先找一下我们需要构建索引的相关信息:(2)根据信息,初步处理:索引构建中的临时文件N=800000,文档ID需要32bitsT原创 2021-11-21 16:23:15 · 1004 阅读 · 0 评论 -
3.2拼写校正(词项独立校正(编辑距离和回溯路径计算,k-gram索引)及上下文敏感校正方法)
提示:词典及容错性检索【拼写校正(词项独立校正(编辑距离和回溯路径计算,k-gram索引)及上下文敏感校正方法)】本节最重要的内容是:(1)词典快速查找的数据结构(2)非精确查询(3)自动校正技术希望大家学到:(1)了解词典查找的数据结构(2)理解通配符查询的思想(3)掌握编辑距离的计算(4)理解自动校正技术的思路>>其他内容(拼写校正)可转<<文章目录拼写校正校正基本原则编辑距离编辑距离计算拼写校正校正基本原则编辑距离编辑距离计算采用动态原创 2021-11-19 21:37:59 · 1922 阅读 · 0 评论 -
3.1词典搜索的数据结构与通配符查询
提示:词典及容错性检索(词典搜索的数据结构与通配符查询)本节最重要的内容是:(1)词典快速查找的数据结构(2)非精确查询(3)自动校正技术希望大家学到:(1)了解词典查找的数据结构(2)理解通配符查询的思想(3)掌握编辑距离的计算(4)理解自动校正技术的思路>>其他内容(拼写校正)可转<<文章目录词典搜索的数据结构常用数据结构哈希函数二叉树字典树B树通配符查询(1)轮排索引(2)支持通配符查询的k-gram索引词典搜索的数据结构常用数据结构哈希函数原创 2021-11-19 21:37:39 · 2703 阅读 · 0 评论 -
2词项词典及倒排记录表
提示:词项词典及倒排记录表文章目录词项词典及倒排记录表相关概念词项词典及倒排记录表相关概念原创 2021-11-18 16:54:09 · 547 阅读 · 0 评论 -
1信息检索-布尔检索-倒排索引
提示:信息检索 布尔检索 倒排索引 布尔查询文章目录信息检索举个例子(词项-文档关联矩阵一个题目)相关术语及概念倒排索引倒排索引示例倒排索引构建布尔查询处理(案例)两个倒排记录表的合并算法查询优化基本布尔操作的拓展和有序检索模型信息检索 信息检索是从大规模非结构化数据(一般为文本)集合找出满足用户信息所需要的资料。 非结构化数据指没有清晰和明显语义结构的数据,计算机不易处理。 结构化数据典例:关系数据库举个例子(词项-文档关联矩阵一个题目) 非线性扫描:一种方式是给文档建立原创 2021-11-18 15:15:41 · 1797 阅读 · 0 评论