搜索的基本框架

1、搜索与推荐

       用户从海量文本中获取信息主要通过两个途径,搜索和推荐;搜索和推荐的区别在于,搜索是通过输入一定的信息,获取对应的信息,是一个主动获取信息的过程。推荐则是app/web根据用户的历史行为数据,猜测用户的喜好,进行内容的推送。

2、搜索分类

2.1.搜索分类

      一般搜索分为大搜和垂搜,大搜就是像百度、google、bing等对相关网页进行搜素。垂搜指的是某一领域的搜索,比如爱奇艺中的视频检索、淘宝的商品检索、贝壳的房子搜索等。

2.2、搜索业务

        搜索词补全

        搜索

        相似搜索推荐

2.2、搜索常见素语

        query:检索词,可以是商品名、视频名、房子信息、关键词等

         doc:数据库中对应的文档,doc可以是商品,视频,房子等

         索引:标识doc位置,加速搜索的一种方法,类似于书的目录。

        引擎:实现检索的平台

2.3、搜索模块

       query解析->相关文档召回->粗排->相关性计算->精排->重排

3、各模块简介

3.1、query解析

       query解析是指对文本中传入的query进行解析,一般包含query的分词、意图识别、tagging、query改写、标签识别等等。

3.2、召回

      召回是指从索引表中初步获取相关的doc,一般包括2种方法,1)文本seek->粗排截断,根据关键词构建倒排索引,拉取包含query所有分词的数据;2)向量召回,将query和doc分别表示成embdding的形式,然后计算query与doc的相关性,反馈相似性最高的top n个数据。

3.3、粗排

       粗排截断一般在召回之后,对文本进行一个简单的筛选功能,减小后面相关性和精排的压力。一般是一个简单的gbdt或lr模型。

3.4、相关性计算 

       相关性计算一般接在召回的后面,对各路召回的doc进行一个汇总,实现进一步筛选,给每个doc一个档位预测、计算一个相关性分数,供下游的精排使用。

3.5、精排

       精排阶段数据量较小,一般可以使用较为复杂的模型,例如deepFM、DNN、bert等等。

3.6、重排

      重排一般发生在一些业务规则,基于一些业务逻辑,对最后的结果进行重新排序。

【1】搜索引擎(1)—— 概述与功能架构 - grindge - 博客园 (搜索的基本概述)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值