前言:
电商直播已经成为电商平台流量的主要入口,今天我们一起探讨推荐算法在直播中所面临的核心问题和解决方案。以下内容参考阿里1688的技术方案整理完成。
一、核心问题介绍
-
在电商网站中,用户的主要行为是在商品上的行为,直播的内容行为数据比较稀疏,因此商品行为应与直播行为结合来优化直播推荐。
-
多目标学习,直播推荐的效能类指标和满意度指标很多,包括用户看到直播间的点击率,进入直播间的停留时长,转化率,关注率,留言率等。
-
减少偏差,position bias 与 selection bias 会影响模型的准确性,增强马太效应,损害腰部、尾部主播的利益。
此内容将在下一遍文章中详细探讨。
二、特征工程
特征包括了推荐系统中非常经典的一些特征体系,也就是直播测, item 侧,用户侧,用户和 item 侧交叉的特征体系。
-
直播侧
第一是直播的实时和历史的统计特征,包括实时以 30 分钟,3 天,7 天,15 天为窗口的开播次数,曝光数,点击数,CTR,CVR 等特征。
第二是内容侧特征,包括封面图和标题的 embedding。
第三是商家画像特征,静态信息有商家等级和店铺交易数据,B 类信息有商家工厂能力。
-
用户侧
用户侧特征里,我们一方面采用了网站的用户画像,包括网站的身份,等级,来访频次等,另一方面采用直播画像,包括偏好,访问天数,下单数,RFM 等特征。
-
直播用户交叉
用户和直播的交叉特征,以非常好地反映用户对直播的偏好程度。我们分别用到了用户在 item 的序列和用户在 live 序列在不同的时间和次数窗口上与直播间的商品,以及直播间本身的一些交叉的次数,点击率和转化率的特征。
三、直播排序模型迭代
1、第一版:我们采用的模型是一个以 CTR 为目标的 GBDT point-wise 模型
2、第二版: 基于YouTube 的 DNN 和 DIN,演化开发的异构双序列 Attention 模型
-
行为异构性:商品序列、直播序列
采用了两个 Target Attention 的结构,分别基于用户在 Item 上的序列 和 当前直播正在讲解的商品做一个 Attention。也就是说,如果用户的 Item 序列与当前直播的商品匹配程度比较高,模型即可捕捉对应的兴趣。
第二是 基于用户历史点过直播的序列与直播间的 ID 做一个 Attention。用户如果历史看的直播与当前直播间比较相似,模型也能捕捉到用户对应的兴趣,来提升预测 CTR 准确度。
-
直播实时性:大量实时统计特征
总结:
大量的用户只有关于商品(item)的行为,缺少直播相关的行为。因此用户直播的序列的 Attention 结构就不会生效。