文章目录
一、多路召回是什么?
“多路召回”策略,指的是采用不同的策略、特征或简单模型,分别召回一部分候选集,然后再把候选集混合在一起供后续排序模型使用。
在设计召回层的时候,“计算速度”与“召回率”这两个指标是相互矛盾的,即要想有比较高的计算速度,就需要简化召回策略,这样就使得召回率达不到我们的要求;同样的,如果要有比较高的召回率,就必须将召回策略复杂化,此时计算速度就会相应的降低。
而“多路召回”策略,是在“计算速度”和“召回率”之间进行权衡的结果。通过各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率达到理想化,不至于损伤排序结果。在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更高效。
在选择召回策略时,要根据相关任务的特点,考虑合适的召回规则。就比如新闻推荐,召回规则可以是“热门新闻”、“新闻类型”、“新闻类容”、“作者召回”等等。
如上图所示,每一层的召回中都需要选取前K个候选集,而每一层的K的大小是超参数,可以是不同的。K的大小一般需要通过线上线下评估来选取合适的值。