推荐算法之粗排

一、概念

        粗排(粗粒度排序)是推荐系统中连接召回与精排的核心环节,其核心目标是在召回阶段返回的海量候选集中筛选出高潜力候选,同时满足严苛的计算效率要求。

二、定位

        推荐系统的典型链路为 召回 → 粗排 → 精排 → 重排。粗排介于召回与精排之间,其输入是召回阶段返回的候选集,输出是精排所需的候选集。至于粗排返回的候选集大小,则并没有严格的限制,需综合考虑召回数据量、应用场景等。

        推荐系统的这种级联设计的本质是效率与效果的平衡:召回追求候选集的多样性和覆盖度,粗排通过初步筛选减少精排的计算压力,精排则聚焦精细化排序。粗排的作用主要可以归纳为下面几点:

  • 降低计算成本:精排模型(如深度神经网络)对单个候选的计算耗时通常为毫秒级,若直接处理召回的万级候选,总耗时将超过线上服务的时延限制(通常要求<50ms)。粗排通过过滤低价值候选,将精排的计算量压缩至可接受范围。
  • 提升排序效果:粗排并非简单的 “数量裁剪”,而是通过模型预估用户偏好,保留高潜力候选,为精排提供更优质的输入。例如,电商场景中粗排可优先保留高点击率、高转化率的商品,避免精排被低质候选干扰。
  • 缓解样本选择偏差:召回阶段的候选集可能存在严重的曝光偏差(仅包含历史曝光商品),粗排通过引入精排的后验信息(如点击率、转化率),可部分修正这种偏差,提升候选集的全域覆盖能力。

        历史上,粗排的发展大致经历了四个阶段:

  • 规则驱动阶段(第一代):基于人工规则(如商品销量、类目热度)进行筛选,缺乏个性化且实时性差。
  • 线性模型阶段(第二代):采用逻辑回归(LR)、梯度提升树(GBDT)等模型,通过特征工程实现初步个性化,但表达能力有限。
  • 双塔模型阶段(第三代):基于深度神经网络的双塔结构(用户塔 + 物品塔),通过向量内积快速计算相似度,成为工业界主流方案。
  • 全连接模型阶段(第四代):以COLD模型为代表,通过轻量级全连接网络支持特征交叉,结合工程优化(如特征筛选、量化)实现效果与效率的突破。

三、主流技术

        要理解粗排模型的设计逻辑,核心需紧扣其 “高吞吐量、低延迟、轻量级” 的核心诉求 —— 既要快速筛选掉绝大多数不相关候选,又要避免漏过潜在优质候选。

1.机器学习模型

        机器学习类模型的核心优势是“极致轻量化”:参数少、推理仅需简单线性/低阶计算,延迟可低至微秒级,能轻松支撑每秒百万级候选的筛选。缺点是

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值