整体链路
- 分为召回,粗排,精排,重排
召回
- 召回:协同过滤,双塔模型,关注的作者等等
- 有多条召回通道
- 召回后做去重和过滤
- 为了解决计算量问题分为粗排和精排
- 粗排是比较简单的模型,计算量较小
- 精排是比较复杂的模型,计算量较大
粗排与精排
- 有多种特征,把它们输入到神经网络
- 神经网络会把输出的数据做预估,最后会得到一个排序分数
重排
- 做多样性抽样(如MMR, DPP),从几百篇中选出几十篇
- 用规则打散相似笔记,避免看到同质化的内容
- 插入广告和运营推广内容,根据生态要求排序
总结
- 召回:用多条通道,召回几千篇笔记
- 粗排:用小规模的神经网络对几千篇笔记打分,选出分数最高的几百篇
- 精排:用大规模神经网络,给几百篇笔记打分
- 重排:做多样性抽样,规则打散,插入广告和运营比较急