搜索算法工程师必备知识储备
首先我们知道,搜索算法关注的是搜的更准
而搜索算法流程中,我们可以分为这样几步
query理解–>召回–>相关性–>排序
因此这样几个方面是比较重要要求掌握的技术
下面一个一个的讲
文章目录
query理解
这里的query理解,可以解释成,如何对用户发出的查询建模、
也是搜索最上层的工作,非常重要
用户的查询方式一般表现为文本,当然现在也有一些多模态的一些query
因此如何对query建模,如果是自然语言层面的话,可以理解成为NLU,即包括,分词,新词发现,词权重,词识别,query改写,同义词替换,意图识别,query纠错等等
例如:
-
纠错改写。针对用户输错的,没输入完全的,内容,进行修正。底层数据库只支持精准搜索,因此需要将query改写到正确的内容下。搜索引擎底层大都使用的倒排索引,只有映射到对应的倒排,才能够找到对应的资源,然而对于用户而言,某些词可能有很多说法,这些都要映射到对的词,才能够实现查询,例如同义词改写、前缀改写、拼音改写等。
-
意图识别。通过分析语义等方式,在一定的类目结构下,识别出具体意图。这个意图识别的目标,大家可以理解为告诉下游,需要在哪个库数据进行搜索。
传统方法想必很多人其实了解的并不多,但其实是搜索领域内非常常见,通过规则、词典、正则等方式进行识别,准确率高、速度快。<