
信息检索
文章平均质量分 87
lwgkzl
海风和着歌声,星空伴着代码
展开
-
【Ranking】Pre-trained Language Model based Ranking in Baidu Search
总述这篇文章重点在解决以下几个问题:现有的预训练语言模型由于处理长文本对时间和计算资源的高需求使得其无法应用于online ranking system,因为网络文本通常比较长。现有的预训练范式,如随机mask词汇,下一轮句子预测等,都有Rank任务没有关系,因此会忽略文本中的相关性,从而减弱其在ad-hoc 检索中的效果。在真实的信息检索系统中,Ranking 模块通常需要与其他模块结合起来使用,如何使得ranking 模块能够更好的兼容检索系统的其他模块也是一个值得探索的问题。针对以上问题原创 2022-05-23 01:18:56 · 1124 阅读 · 1 评论 -
【调参Tricks】WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach
总述该文主要介绍了三种使用BERT做Sentence Embedding的小Trick,分别为:应该使用所有token embedding的average作为句子表示,而非只使用[CLS]对应位置的表示。在BERT中应该使用多层的句向量叠加,而非只使用最后一层。在通过余弦相似度做句子相似度判定的时候,可以使用Whitening操作来统一sentence embedding的向量分布,从而可以获得更好的句子表示。模型文中介绍的前两点均不涉及到模型,只有第三点Whitening操作可以做简要介绍原创 2022-05-21 23:16:23 · 514 阅读 · 2 评论 -
ERNIE1.0 与 ERNIE2.0 论文解读
总述本文主要介绍百度发布的ERNIE1.0模型与ERNIE2.0模型。1. ERNIE1.0 Enhanced Representation through Knowledge IntegrationMotivationBERT那种预测随机mask的方式忽略了句子中的实体信息以及实体与实体之间的关系(即外界的知识)。Model模型的训练分为三个阶段,每个阶段使用不同的mask策略,分别为随机mask, 随机mask句子中的某些短语,以及随机mask句子中的实体。在预训练的过程中,使得模型来预测原创 2022-05-20 00:45:10 · 1283 阅读 · 0 评论 -
【论文介绍】R-Drop: Regularized Dropout for Neural Networks
总述本文的出发点在于:之前的dropout存在训练与测试时模型不一致的问题。基于这个出发点,本文提出了R-Dropout的方式来解决这个问题。实验证明,R-Dropout在多个数据集上均有效(都略有提升)对Dropout的思考首先我们要理解,为什么之前的dropout存在训练与测试时不一致的问题。在训练的时候,dropout会随机mask模型的一些节点,然后利用剩余的网络去拟合数据(防止过拟合)。在不同batch的数据训练的过程中,由于mask是随机变动的,因此不同的数据可能会经过不同的网络处理。原创 2022-05-19 23:06:58 · 749 阅读 · 0 评论 -
【信息检索导论】第七章搜索系统中的评分计算
1. 总述本章主要解决以下问题:对于千亿级别的文档,为每一个询问对文档库进行排序是不现实的,如果快速的检索出某个询问最相关的topk个文档呢?除了query与document的相似度之外,对文档进行排序的过程是否还需要其他指标? 如何综合这些指标呢一个完整的信息检索系统需要包括哪些模块?向量空间模型是否支持通配符查询?2. 快速评分与排序本章主要介绍一些启发式的方法,用来快速的找到符合与某个询问较为相关的K个文档,找到的文档中并非完全包含最相关topk,但我们会返回与真实topk分数接近的原创 2022-03-05 17:08:13 · 1058 阅读 · 0 评论 -
【信息检索导论】第六章 词项权重及向量空间模型
1. 总述本章主要介绍一下几个问题:给定关键词,如何评定包含这些关键词的文档中哪些更重要,即如何给文档进行相关性排序tf-idf算法是什么? 怎样给文档中的词项进行打分?支配了IR界几十年的空间向量模型是什么?他存在什么缺点?2. 参数索引及域索引本节以一个简单的例子介绍如何给文档进行排序。元数据(metadata):一个文档固定有的字段,并且该字段取值范围是有限的,如文档的创建时间,创建者,文档类型等。文本域(zone): 一个文档的某些字段,并且该字段的取值范围是无限的,如文档标题,原创 2022-02-06 15:13:59 · 1665 阅读 · 0 评论 -
【信息检索导论】第三章 容错式检索
总览本章主要解决以下几个问题:根据用户的询问,如何找到用户询问中的词语对应的倒排表?如果用户不记得某个单词怎么拼写,如何实现模糊查询(通配符查询)?如果用户写错了某个字, 怎么样帮助他纠正,以便返回用户真正想查询的单词?以上问题分别对应下面的三小节。3.1 检索词项字典前言:在前两章中,我们进行布尔查询都是直接默认根据用户查询的词项,就直接获取到了他的倒排表。但实际上,我们需要首先在词项词典中找到对应的词项,才能返回该词项对应的倒排表。对用户的query进行分词后,获取到待查询词项,我们首原创 2022-01-28 17:01:51 · 1624 阅读 · 0 评论 -
【信息检索导论】第二章 词项词典与倒排记录表
总览本章介绍的较为琐碎,因为书中提及了很多实际应用中的具体困难,而这些困难书中也并未提及解决方案,一般是凭经验去权衡。其内容主要还是围绕倒排表进行讲述的,讲述重点有两个。一是如何从文本中抽取词条,涉及到分词,以及词语的归一化问题(2.2), 二是如何高效的进行检索,即倒排表如何快速合并,考虑连续的二元组该如何查询等(2.3, 2.4)2.1 文档分析与编码转换编码转换:主要介绍文档的解码问题,用UTF-8还是其他编码,以及不同平台间的文档的解码问题。索引粒度(index granularity):原创 2022-01-27 15:23:22 · 1579 阅读 · 0 评论 -
【信息检索导论】第一章 布尔检索
信息检索导论 第一章内容总结原创 2022-01-25 16:43:28 · 2980 阅读 · 2 评论