广告行业中那些趣事系列75:值得反复观看学习的《工业界的推荐系统之涨指标》课程学习笔记...

导读:本文是“数据拾光者”专栏的第七十五篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要是学习wangshusen老师的《工业界的推荐系统之涨指标》课程笔记,值得反复观看和学习反思。

欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者

摘要:本篇主要是学习wangshusen老师的《工业界的推荐系统之涨指标》课程笔记,主要从召回、排序模型、提升多样性、特殊对待特殊人群和利用交互行为五个方面来提升推荐系统指标,分享了很多涨指标的优化实践方法,非常有借鉴价值,值得反复观看和学习反思,

下面主要按照如下思维导图进行学习分享:

007153e47eada93d004dcb1b1e94b41d.jpeg

背景

最近因为业务需要在做商店召回项目,在B站刷到wangshusen老师的《工业界的推荐系统之涨指标》课程,里面干货满满。这里记录下学习笔记,方便后面反复学习实践。

01 推荐系统的评价指标

7897d5d3ed332798535958fc3bb247a8.jpeg af30f3e280301156ba4a84507ba24634.jpeg

02 涨指标的方法有哪些?

210b77c799a8bd6ed29ee51d4dd1c497.jpeg

2.1 涨指标的方法:召回

fe1b54ac959db80dd36b9037fcff649e.jpeg

2.1.1 改进双塔模型

(1)优化正样本和负样本-主要优化点

4b8b9a95628f16134bc2f7794e5a178a.jpeg

因为进入排序序列,说明用户可能对物品感兴趣。但是排序靠后,说明兴趣不大,所以可以作为困难负样本。

(2)改进神经网络结构

fe970d808c03986bb43ce194733f4982.jpeg

DCN深度交叉网络。

多向量模型:

用户塔可以输出多个向量,比如点击向量、点赞向量、收藏向量和完播向量等,各自的向量维度和物品塔的维度一样。如果针对不同的目标(点击、点赞、收藏等)分别构建索引,需要构建多个向量索引库,需要多套ANN索引,特别复杂,代价太大。让物品塔只构建一个向量索引库,代价就降低很多。

65c8c0f67ca6af8bf0070c904865eb21.jpeg

(3)改进模型的训练方法

c8b13d0588692f28efc397140847a621.jpeg

因为冷门物品的点击数据太少,导致学习的embedding效果不好,通过自监督学习的方法可以提升效果。

2.1.2 Item-to-Item (I2I)

0adcac7c896de7603cbf0b2730a667af.jpeg

2.1.3 类似I2I 的模型

ae87a25a2856f94222028d53d3f0b562.jpeg

这些模型搭建的召回通道可能配额很小,但是对于推荐系统指标提升有一定效果。

总结:改进召回模型

2b9379517cb1272af56320e89df13e57.jpeg

2.2 涨指标的方法:排序模型

5d5636db51de71e94679d1512a8efeba.jpeg

2.2.1 精排模型的改进

fef64cdc9f453a9984d8ed728ddb7054.jpeg

精排模型:多目标预估。

272f81125be1dbff6eccfb0956557202.jpeg

2.2.2 粗排模型的改进

改进点1:使用三塔模型(取代多向量双塔模型)

8f72baa13907a937f877f8e1bf8c1e8d.jpeg

改进点2:粗精排一致性建模

cd35ebace5425a6d84f5a31cda8ef271.jpeg

2.2.3 ⽤户⾏为序列建模

用户交互过N个物品,这里取lastK个物品,得到每个物品的embedding,然后取平均得到一个embedding。

5753d41b301a6279b9010313188b092e.jpeg

用户行为序列建模的几个改进点:

23244b5c9581e660966698ea33d39bfd.jpeg

使用BERT或者CLIP来提取物品内容特征。

2.2.4 在线学习

923529b09960670b3942ff77b566f5ed.jpeg

分钟级别的增量更新。虽然在线学习可以有效提升模型效果,但是会消耗资源,增加成本。

b2eef7fdb900e07e562309f0cf484ffe.jpeg ea5ed8e395c6e8e9de68d37cf6200d87.jpeg

2.2.5 老汤模型

ea1255ee75741208447959b88c9fb4dd.jpeg

老汤模型带来的两个问题以及解决办法:

cd6b50e5fc5be4cf2dc0c3b696ccc8a4.jpeg 1353e8507af4d7949deb255bbedc9f4b.jpeg

2.3 涨指标的方法:提升多样性

2.3.1 精排多样性

0aa7a338bba69554b00bce0fa74cf087.jpeg

2.3.2 粗排多样性

9eb5b8946c24c51fdfa51833caeb2342.jpeg

2.3.3 召回的多样性

(1)添加噪声

90b0d6d72c849cfe96b8bf06357de0bb.jpeg

(2)抽样用户行为序列

163e88712156ea522c4cfea379c51158.jpeg 1ee1c61c2bc923262f256731d12e5919.jpeg 3dbdafff133b1890dd2cbed40bc6cadb.jpeg

总结:提升多样性

81b15e907449427afb4a762448353061.jpeg

2.4 涨指标的方法:特殊对待特殊人群

2.4.1 为什么要特殊对待特殊人群?

d65e737fc46571bfab8b731f75ff4550.jpeg

2.4.2 通过构造特殊的内容池对待特殊人群

c69fc8c56034fbacb7045ac296b930a3.jpeg

(1)如何构造特殊内容池

1074bc4f75ff3eaacb76d5dd4100af53.jpeg

(2)特殊内容池的召回

82da13d4dc583b0ed3700832d54b6709.jpeg

2.4.3 特殊的排序策略

(1)排除低质量物品

70f0f812f25da119278005d838a42add.jpeg

(2)差分化的融分方式

278d095c5eefd4e67a171ca7bc622ac4.jpeg

2.4.4 特殊的排序模型

28d8e5d7aa559fb288be40cacf9efae2.jpeg

小模型在这里起到了纠偏的作用。

8f2e9abb5c1564654d1f017f2d6dea50.jpeg

错误的做法

10d42386e2837c98e9901684af402e07.jpeg

所以不建议对每个特殊的人群都构建排序模型,最好只训练一个统一的排序模型,针对特殊人群构建小模型进行纠偏和校准。

总结:特殊对待特殊用户人群

b9216a6cb395846a7cd319c34a399eff.jpeg

2.5 涨指标的方法:利用交互行为

2.5.1 用户的交互行为

752fe8164caf88c0ff7fd6e25925f2ba.jpeg

2.5.2 关注量对留存的价值

88efa5f94cb001087f43bae71f0fcd1c.jpeg d11a199e79482f5a33fa4727f399472e.jpeg

2.5.3 粉丝数对促发布的价值

996ce0d73dddbce8cb579dafb2568dce.jpeg

通过隐式关注关系来涨粉。

61eaf1d864ebcf3eb3da48ee4a6a29cc.jpeg

2.5.4 促转发(分享回流)

a862dde5e5be08b08f121eb48e98e10c.jpeg

2.5.5 KOL建模

79dec733eee0739d75a13a8478d8752c.jpeg

方法2:构造促转发内容池和召回通道,对站外KOL生效。

2.5.6 评论促发布

e09f1aa77077c6fe156d959875fb654f.jpeg

总结:利用交互行为

aae4c1e60b08b2cadff4b4a9e98cc5e3.jpeg

参考资料

【1】ShusenWang的B站视频:https://space.bilibili.com/1369507485/video

【2】https://github.com/wangshusen/RecommenderSystem

最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。

91e11b33fdd1cdc68744bf8cbfc832f2.png

码字不易,欢迎小伙伴们关注和分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值