探索神经搜索:从经典模型到深度学习的革新
1. 搜索结果的检索与相关性
在搜索过程中,索引和搜索阶段可能会有其他过滤器。有了索引和搜索时的文本分析链以及查询解析,我们可以了解搜索结果的检索过程。文本分析(分词和过滤)是每个搜索引擎核心的基本技术之一,它能将文本分解为用户查询时可能输入的术语,并将其放入一种称为倒排索引的数据结构中,这种结构既节省存储空间又能实现高效检索。
然而,用户并不想查看所有搜索结果,因此需要搜索引擎告知哪些是最佳结果。这里的“最佳”可以用相关性来衡量。相关性是搜索中的关键概念,它衡量文档相对于特定搜索查询的重要性。虽然理论上可以提取一套规则来对文档的重要性进行排名,但在实际中,由于信息量大、文档随时间变化以及文档领域多样等原因,这种方法往往不可行。
信息检索领域的一个核心主题是定义一种无需搜索工程师提取规则的检索模型,该模型应尽可能准确地捕捉相关性的概念。给定一组搜索结果,检索模型会对每个结果进行排名,相关性越高,得分越高。不过,作为搜索工程师,仅选择一个检索模型通常无法得到完美结果,在实际场景中,可能需要不断调整文本分析管道和检索模型,并对搜索引擎内部进行微调,但检索模型为获得良好的相关性提供了坚实的基础。
2. 经典检索模型
经典的检索模型主要有向量空间模型(VSM)和基于概率相关性模型的方法。
- 向量空间模型(VSM) :在该模型中,每个文档和查询都表示为向量,可将向量想象成坐标平面上的箭头,箭头越接近,文档和查询越相似。每个术语都与一个权重相关联,权重表示该术语在文档或查询中相对于搜索引擎中其他文档的重要性。最常见的权重计算算法是词频 - 逆文档频率(TF
神经搜索:从经典到深度学习
超级会员免费看
订阅专栏 解锁全文
1322

被折叠的 条评论
为什么被折叠?



