
推荐系统
推荐系统
_沧海桑田_
ACL/NAACL/EMNLP/COLING审稿人,
MOD大侠梦/MOD禾下霸业作者。
github.com/guotong1988
展开
-
【推荐系统】文本类的算法策略,有vs没有,比文本的排序,对线上转化重要的多
有展示vs没有,比候选文本的排序策略,对线上转化(比如CTR)重要的多。文本类的算法策略,比如推荐理由,搜索推荐词,搜索引导词/下拉词,原创 2024-10-20 14:58:25 · 113 阅读 · 0 评论 -
【推荐系统】精简特征的意义
前文 https://blog.youkuaiyun.com/guotong1988/article/details/140605537。有100个特征,如果线上每个特征出问题的几率是1%,那么100个特征都不出问题的概率就是0.99^100,有200个特征,如果线上每个特征出问题的几率是1%,那么200个特征都不出问题的概率就是0.99^200,比如原来10个特征,每个成功率99%,现在合并成1个特征,成功率也是99%,不就相当于提升了整体成功率。原创 2024-08-07 10:01:40 · 189 阅读 · 0 评论 -
【推荐系统】特征一致性的困局
加更多特征,特征一致性问题越大,则线上效果不好靠加特征提升。特征越多,特征一致性有问题的特征越多,原创 2024-07-22 11:37:38 · 206 阅读 · 0 评论 -
CTR模型对特征的“理解能力”其实严重被高估
那把tag_a1,tag_a2,tag_a3作为特征,效果上不能完全替代tag_A,就是tag_A最好也作为特征加入。又比如,item的tag_A下面有子tag:tag_a1,tag_a2,tag_a3,同时,当然 点击次数 也作为特征,远不如直接把 点击率 作为特征。比如 曝光次数 作为特征,原创 2024-07-17 17:39:48 · 113 阅读 · 0 评论 -
CTR模型,训练多少epoch合适
如果随着epoch增加,test-AUC和train-AUC都不再提升,选择AUC不再增加之前的最后一个epoch。选择test-AUC和train-AUC都比较高的epoch,除了看test-AUC,也打印出train-AUC,原创 2024-07-03 09:02:01 · 173 阅读 · 0 评论 -
【推荐系统-特征工程】避坑特征穿越--不能用到“未来”的日志
这天的数据,基于这天之前7天的日志,原创 2024-06-24 09:04:41 · 161 阅读 · 0 评论 -
【推荐系统】加了特征,模型在不同天预测AUC波动大
比如统计date-7day到date的特征,作为date这天的特征的bug,实际应该作为date+1day的特征。就是训练集的该特征和测试集的该特征一样,新加的特征有特征穿越的bug,原创 2024-06-23 11:00:57 · 192 阅读 · 0 评论 -
【推荐系统】加上user对item的tag点击/购买最高的tag-id作为user侧特征(的特征穿越的坑)
如果用所有天的user-click-tag-id-list-top15作为user侧特征,那么会有特征穿越,就是比如用1月1日-3月1日的数据训练,预测3月2日-3月7日的AUC,但是生产所有天的user-click-tag-id-list-top15的时候,是统计的每个user的1月1日到3月15日的click-tag-count。把user点击/购买item的tag-id-list的top15作为user侧新加特征,原创 2024-06-23 09:50:28 · 281 阅读 · 0 评论 -
【推荐系统】加了特征,train-AUC涨了,test-AUC跌了
如果是用1月1日-5月1日的四个月数据训练,然后去预测5月2日一天的数据作为test-AUC,可能就是5月2日这一天对比Base的test-AUC跌了,可以试试预测其他天。因为加的特征在不同天,无bug的前提下,会导致test-AUC不稳定。原创 2024-06-18 17:05:27 · 218 阅读 · 0 评论 -
【推荐系统】CTR模型,判断特征值如果有问题 对线上的影响
如果是用1月1日-5月1日的五个月数据训练,然后去预测5月2日一天的数据作为dev-AUC,那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,把5月15日那天的相应的特征,改为默认值或错误值,看预测的AUC多少,就知道了。原创 2024-06-16 18:25:46 · 123 阅读 · 0 评论 -
【推荐系统】如何确认自己的CTR模型离线没问题
如果AUC有问题,说明模型只是原来在5月2日的表现好,而上线后的5月15日就是模型不好。那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,如果是用1月1日-5月1日的数据训练,然后去预测5月2日的数据作为dev-AUC,如果AUC没问题,说明不是模型离线部分的问题,可确认是线上有什么问题,原创 2024-06-16 18:21:31 · 113 阅读 · 0 评论 -
【推荐系统-特征工程】体现“分类性”(discriminative)的特征制作
二,user对每个tag-value值的一个“Map”,占50位特征在user侧,每位是user对每个tag下单的单量,其中第一种方式,对于15位的第一位,可以反映user最偏好的tag,最能体现分类性(discriminative),三,user对tag的交叉特征,即一共1位特征对于user侧,值为user对item的tag的下单量,一,user高下单tag-id-list,占比如15位特征在user侧,如果item的1种tag可有50个tag-value,原创 2024-06-28 09:19:11 · 139 阅读 · 0 评论 -
【推荐系统】CTR模型加了特征,用少量数据训test-AUC涨了,用大量数据训test-AUC跌了很多
如果test-AUC也高了,说明测试代码是正常的,是模型过拟合 —> 减少MLP参数量。如果test-AUC还是低,说明测试代码有错,和训练代码不一样,需要排查代码。加了特征,如果train-AUC高了,但test-AUC低了很多。可以把测试集改为训练集,这样之后。先打印出train-AUC。原创 2024-06-07 19:56:02 · 276 阅读 · 0 评论 -
【推荐系统-特征工程】把item的tag加工为特征的三种方式
3,作为交叉特征,即存下user对(item的)每个tag的订单量,在模型训练时,每条训练数据有user列和tag列,tag列的每个值是user对该tag订单量,在模型预测时,输入user和tag,取到user对该tag的订单量 输入模型。1,高订单tag-id的top1-10的id,作为user的单侧10维特征,即一个list作为单侧特征。2,高订单tag-id的top1-10的订单量,作为user的单侧10维特征,即一个map作为单侧特征。缺点:丢失了tag-rank10以外的tag信息;原创 2024-06-03 13:36:51 · 200 阅读 · 0 评论 -
【推荐系统-特征工程】切换 提升clickAUC 还是 提升payAUC
统计高点击的item类目id-list作为user特征,则离线跑出的AUC向clickAUC倾斜。统计高订单的item类目id-list作为user特征,则离线跑出的AUC向payAUC倾斜,原创 2024-06-03 11:58:32 · 260 阅读 · 0 评论 -
【推荐系统-特征工程】按每个日期生产特征的大忌 / 小心特征穿越
对于每个date,生产这个date前7天的某特征,SQL要用between这种逻辑。原创 2024-05-26 23:21:11 · 136 阅读 · 0 评论 -
【推荐系统】离线提升ctrAUC不如提升cxrAUC
如果 离线ctrAUC(clickAUC)提升大,cxrAUC(payAUC)没提升,会发现线上CTR提升很多,但CVR降低很多,最终CXR不涨。原创 2024-05-23 09:16:33 · 151 阅读 · 0 评论 -
【推荐算法-特征工程】每种item单侧特征,都可产生对应user单侧特征
那么对应user对item的click用户行为,就能产生user-click的十个档位作为特征值 作为user的标签。那么对应user对item的click用户行为,也能产生20哥档位的特征值 作为user的标签。比如item的平均点击率,也可以分成比如20个档位,作为一个标签值打在item上,比如item的平均成单价格,可以分成十个档位,作为一个标签值打在item上,原创 2024-05-21 15:01:12 · 404 阅读 · 0 评论 -
用 scipy.optimize.minimize 的意义
比如在推荐系统中,X是ctr的模型预测值,Y是cxr的模型预测值,要综合ctr和cxr得出一个最终的排序分数,即。问题是如何确定a和b让对于所有的X_list和Y_list,c最小或最大,其中X和Y是X_list和Y_list的两组值,来确定aX+bY=c里的a和b,原创 2024-05-17 15:29:46 · 166 阅读 · 0 评论 -
TensorFlow 用 hashtable 的意义
的embedding_matrix存embedding,然后用embedding_lookup接口读每个id的embedding。比如id从1-100000,但1-100000里有很多值是空的,如果id是满的,从1-500都有值,可以用一个。TF的hashtable用来存不连续的id,原创 2024-04-24 15:41:22 · 309 阅读 · 1 评论 -
【推荐系统】离线AUC涨了,在线CTR/CXR不涨
我离线,click-auc从0.780提升到0.866,pay-auc从0.887提升到0.927,当时因一些原因,只用了少量数据训练,AUC看起来不错,就上线实验了。后来发现是训练的数据少的原因,然后到线上AB实验反跌了,原创 2024-04-18 10:15:39 · 679 阅读 · 0 评论 -
【推荐算法-特征工程】item侧标签类特征
全量item的高频 2gram / 3gram 都可以作为item的特征。原创 2024-03-24 11:48:47 · 169 阅读 · 0 评论 -
【推荐算法-特征工程】user侧标签类特征
用户高点击的item上的tag的Top-3,3个tag-id可以作为用户的3维特征,但是如何区分这Top-3里哪个是Top-1,还是Top-2,还是Top-3呢,比如用户Top-1点击tag的emb_hidded_size = 24。比如用户Top-2点击tag的emb_hidded_size = 16。可以在特征embedding的时候,给不同的hidden_size,比如用户Top-3点击tag的emb_hidded_size = 8。原创 2024-03-22 19:55:08 · 128 阅读 · 0 评论 -
【推荐系统】判断特征重要性
将要评估的那维特征置为默认值,比如0,观察AUC相比置0之前的降低程度。原创 2024-03-11 09:25:54 · 439 阅读 · 0 评论 -
【推荐系统】item-id 作为特征的意义
所以把item-id embedding后作为特征,就是一个让模型记住每个item信息的方式。是有一些 预测/泛化 的能力,但不影响模型在记忆的出发点,因为其实 模型本身就是 基于记忆(拟合) 的,原创 2024-01-19 14:54:52 · 681 阅读 · 0 评论 -
【推荐系统】端上重排的意义
如果没有这个功能的话,推荐的商品,都是针对用户过去数日的兴趣,也是很直接的idea,除了重新排序商品,也有很多其他实现方式。比如 用户点击了一个健身器材,往下翻会多出很多健身器材,而不能响应用户今天实时的兴趣。原创 2024-01-19 14:48:26 · 488 阅读 · 0 评论 -
CTR模型,聚类型特征的生产原则
因为,给用户推荐的本质就是推荐 相似的item。2,聚类体系的定义合理度;1,是聚类的准确度;原创 2023-12-13 15:04:40 · 96 阅读 · 0 评论 -
线上AB实验的日志分析
分析出了 受影响这部分商家/商品的正向或负向,很重要,可以决定在大盘指标不显著时,是否延长观察时间,如果受策略影响这部分是正向的,且影响面不小,那么大盘大概率只是暂时不正向的。商家/商品,可统计分析出哪些(类别的)商家/商品受策略影响之后 正向最大 或 负向最大,可以关闭负向部分的商家/商品的策略。具体操作:在实验组圈选出 受策略影响的商家/商品,对这部分商家/商品,统计实验组VS对照组的效果指标。商家/商品,则统计分析出受影响这部分的效果指标。原创 2023-11-20 22:20:13 · 186 阅读 · 0 评论 -
Improving Training Stability for Multitask Ranking Models in Recommender Systems 摘要
在YouTube数据集上的实验表明,与几种常用的基准方法相比,所提出的算法可以显著提高训练稳定性,同时不会影响收敛性。本文分享我们学习到的用于提高YouTube推荐系统 多任务排序模型的 训练稳定性 的发现和最佳实践。大多推荐系统的工作,想研究一个更好的模型,然而我们发现 训练稳定性 被低估。训练稳定性,比如loss divergence,会使模型不可用。提出新的算法来缓解现有解决方案的局限性。原创 2023-08-16 09:31:34 · 329 阅读 · 0 评论 -
item名字的token-embedding,作为CTR模型的特征,是有效果的
如此设计认为可以是完成一个 item名字 和 item属性 的匹配的任务,然后取transformer 输入的embedding,用生成模型decoder-only transformer,每个数据,item名字作为输入,item属性作为输出,这个embedding作为CTR模型的特征,还不如 item名字的token-embedding。原创 2023-07-23 10:14:08 · 116 阅读 · 0 评论 -
Real-time Short Video Recommendation on Mobile Devices 阅读笔记
用户会实时兴趣转移,为实现在客户端重排,提出一种 context-aware re-ranking 方法,基于 adaptive beam search。原创 2023-07-11 16:19:11 · 431 阅读 · 0 评论 -
Learning Language Representations for Sequential Recommendation 阅读笔记
《Text Is All You Need: Learning Language Representations forSequential Recommendation》把 item序列里的每个item 用 item的文本 代替,输入比如GPT模型:原创 2023-05-30 21:14:26 · 246 阅读 · 0 评论 -
item2vec 阅读笔记
item embedding 目标是使item之间有相似性,本文的方法,可以在没有用户信息的时候,得到item-to-item的相似性。原创 2023-05-30 11:04:56 · 95 阅读 · 0 评论 -
CTR模型的label准备,一些可能的情况
【代码】CTR模型的label准备,一些可能的情况。原创 2023-03-01 14:40:34 · 151 阅读 · 0 评论 -
强化学习用于推荐系统,对比 基于user-item-match的点击率模型
几乎没有提升原创 2023-01-27 17:19:43 · 159 阅读 · 0 评论 -
CTR模型取日志训练 最大的坑
不是 那个页面 下的所有东西的日志都取!就是要取准确的 那个控件 的点击和曝光,原创 2023-01-03 20:21:32 · 111 阅读 · 0 评论 -
选品池/精品池/候选池/召回池 问题
基于用户行为挖掘原创 2022-09-26 19:54:42 · 408 阅读 · 0 评论 -
《Preference Amplification in Recommender Systems》阅读笔记
解决推荐多样性问题原创 2022-07-05 20:16:29 · 211 阅读 · 0 评论 -
【开源代码】在criteo数据集用MLP跑出AUC=0.809的结果
开源代码原创 2022-06-07 16:18:05 · 385 阅读 · 0 评论 -
【开源代码】在movielens数据集跑出接近AUC=0.8的结果
开源代码原创 2022-06-02 10:48:48 · 292 阅读 · 0 评论