推荐系统-多路召回

本文介绍了推荐系统中多路召回的概念,通过定义不同召回字典、评估函数和相似性矩阵来提升候选集的质量。内容包括:1.含义解释;2.多路召回字典的构建;3.召回效果的评估方法;4.相似性计算,如itemcf、usercf和embedding方法;5.列举了如Youtube DNN、协同过滤等召回策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 含义

指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。
示意图:
在这里插入图片描述

2. 定义多路召回字典

# 定义一个多路召回的字典,将各路召回的结果都保存在这个字典当中
user_multi_recall_dict =  {
   
   'itemcf_sim_itemcf_recall': {
   
   },
                           'embedding_sim_item_recall': {
   
   },
                           'youtubednn_recall': {
   
   },
                           'youtubednn_usercf_recall': {
   
   }, 
                           'cold_start_recall': {
   
   }}

3. 召回效果评估函数

# 依次评估召回的前10, 20, 30, 40, 50个文章中的击中率
def metrics_recall(user_recall_items_dict, trn_last_click_df, topk=5):
    last_click_item_dict = dict(zip(trn_last_click_df['user_id'], trn_last_click_df['click_article_id']))
    user_num = len(user_recall_items_dict)
    
    for k in range(10, topk+1, 10):
        hit_num = 0
        for user, item_list in user_recall_items_dict.items():
            # 获取前k个召回的结果
            tmp_recall_items = [x[0] for x in user_recall_items_dict[user][:k]]
            if last_click_item_dict[user] in set(tmp_recall_items):
                hit_num += 1
        
        hit_rate = round(hit_num * 1.0 / user_num, 5)
        print(' topk: ', k, ' : ', 'hit_num: '<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值