【第六章:项目实战之推荐/广告系统】2.粗排算法-(1)粗排用来干什么?“我大体筛一下“

第六章:项目实战之推荐/广告系统

第二部分:粗排算法

第一节:粗排用来干什么?"我大体筛一下"

在推荐系统中,召回阶段已经从海量候选池(百万/千万级)中,粗略筛选出了数百到几千个候选内容(例如 Top 2000 的候选商品、视频、内容)。然而,这个数量显然无法直接拿去精排或最终展示给用户,因此系统需要一个 “承上启下的阶段” 来进行进一步筛选,这个关键角色,就是——粗排(粗排序,Coarse Rank)

一句话概括粗排:

粗排的目标是:在“准确率”和“系统实时性能”之间保持平衡,从数千候选中过滤到数百个候选(通常是 Top 200 ~ Top 500),为后续精排争取空间。


粗排处在什么位置?

推荐系统简化流程如下:

(数百万级候选池)
       ↓ 召回(Recall)
(Top 5000 / Top 2000)
       ↓ 粗排(Coarse Rank)
(Top 300 / Top 500)
       ↓ 精排(Fine Rank / Ranking)
(Top 50 / Top 100)
       ↓  重排(Rerank)
(Top 10 / Top 20 展现给用户)

粗排阶段最关键的词只有两个:

目标关键词解释
模型必须足够轻,毫秒级推理
效果不能太差,否则精排救不回来

粗排不追求特别高的预测精度,但追求性价比最大化


粗排为什么是“必要存在”?

如果没有粗排会发生什么?
直接把几千候选交给精排精排模型太大,耗时严重,卡死 QPS
直接从召回跳到重排分数不准,推荐变得粗糙,体验差
全用 DNN 精排模型性能瓶颈,延迟不可接受

所以在工业推荐系统中,粗排属于不可省略的阶段,它是整个推荐流水线的“分水岭”:

召回:保证有东西
粗排:保证不差太多
精排:负责“尽最大可能做得好”
重排:保证多样、组合策略、展示体验


粗排模型一般长什么样?

粗排常用:

粗排模型特点是否可线上落地
LR(逻辑回归)极快、鲁棒、特征可控工业常用
GBDT / XGBoost表达能力更强常用
DIN / 简化版 DNN引入兴趣注意力(淘宝 & 信息流常见)
双塔模型裁剪版本与召回 embedding 对齐

特点总结:

粗排模型 = 轻量特征 + 小模型结构 + 高吞吐推理

它与召回最大的区别是:

对比项召回粗排
主要目的找可能性粗筛可信度
算法类型向量检索 / GraphLR/GBDT/小DNN
计算特点召回更粗、更快精度更高但仍需快速

粗排关注的指标

粗排最看重:

指标解释
AUC衡量正负样本排序质量
Recall@K / HitRateTop-K 能否命中真实正样本
Latency(延迟)线上必须毫秒级
QPS(吞吐量)能抗大流量

召回偏 覆盖率
粗排偏 排序 + 性能
精排偏 精准度与收益


粗排阶段常用特征

粗排不使用超复杂特征,只使用轻特征集合,例如:

特征类型示例
用户侧 User Feature性别、年龄、兴趣主题
物品侧 Item Feature类目、时长、热度、CTR
行为特征点击次数、曝光次数、最近点击时间
User-Item 交叉特征用户是否看过同类 item

特征原则:

够用即可,越轻越好


粗排一句核心总结

粗排的使命:在性能可控的前提下,把 Top2000 缩到 Top300,并尽量保证后续精排还能救。

它既是召回后的质量过滤器,也是精排前的减负器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值