2021-08-23

最新推荐文章于 2024-05-13 09:14:29 发布

原创最新推荐文章于 2024-05-13 09:14:29 发布 · 165 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Recommend 专栏收录该内容

9 篇文章

订阅专栏

这篇博客介绍了推荐系统中Rank模块的基本概念，包括从粗排到精排的过程，以及CTR预估的重要性。文中提到了FM模型和FFM的特征组合，并探讨了深度学习在Rank模块的应用，如Wide&Deep模型。此外，还讨论了优化器的选择，如FTRL和AdaGrad。

Rech7推荐系统的rank 模块简单介绍

本文是对七月在线推荐课程rank模块入门介绍的一个简单笔记，本文围绕rank基本总述、ctr预估、FM案例、GBDT+LR、Wide&Deep展开。

目录

推荐系统的rank 模块简单总述

FFM 引入隐向量：

深度学习的应用

优化器选择：

推荐系统的rank 模块简单总述

通常做法：用各种算法做召回，比如user/item/model-based CF 等作为输入，做粗排(有的没有）之后交由后面的rank层结合更精细的side_info 做排序，最终展现TopK item给用户。

rank 算法典型应用

ctr 预估、cvr 预估、watch time 预估、learning to rank ？ todo 待请教

多目标排序

rank 算法应用示意图

candidate 召回模块

DB :数据索引

PS： parameter server 模型服务部分

rank 的基本流程：

典型的机器学习流程

ctr 预估：

ctr预估的是一个二分类问题。

➢ 二分类问题
➢ label:y为0/1
➢ 特征:X
➢ 假设H:p(x) = H(X) ，

算法核心 ➢ Loss = -y log(p) - (1 - y) log(1 - p) （交叉熵损失)

➢ 评估:

➢ offline: AUC/MAPE/gauc

➢ online: 业务指标（如点击率，停留时长等）

最基本的算法 LR

➢ 从统计机器学习的角度 ➢ 特征向量: 𝑋𝑖

➢ Label:𝑦𝑖
➢ 模型权重: 𝑊
➢假设𝑋𝑖与𝑃 𝑦𝑖 :𝑃 𝑦𝑖 =1 =𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑊∗𝑋𝑖+𝑏)

➢经典问题:为什么L1比L2有更强的稀疏性

参考： https://www.zhihu.com/question/37096933 ，

这个待细查。视频大概28-20min

FM的例子

FM（Factorization Machine)

参考： FM(FactorizationMachine)是由Konstanz大学SteffenRendle(现任职于Google)于2010年最早提出的，旨在解决稀疏数据下的特征组合问题

• 解释
• 进行二元分类时，FM的输出需要经过sigmoid变换，这与Logistic回归是一样的 • 自动特征组合(某种意义上)
• 特征组合参数n*(n-1)/2
• 引入特征隐向量，参数n*k个

• 直观上看，FM的复杂度是O(kn2)。
• 但是，FM的二次项可以化简，其复杂度可以优化到O(kn)

tensorflow 里实现FM : https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge/blob/master/model_zoo/fm.py

FFM 引入隐向量：

通过引入field的概念，FFM把相同性质的特征归于同一个field。

FFM中，每一维特征xi，针对其它特征的每一种fj，都会学习一个隐向量𝑣𝑖,𝑓𝑗。因此，隐向量不仅与特征相关，也与field相关。也就是说，“Day=26/11/15”这个特征与“Country”特征和“Ad_type”特征进行关联的时候使用不同的隐向量，这与“Country”和“Ad_type”的内在差异相符，也是FFM中“field-aware” 的由来。

OpenMP （工程实现里封装里的trick)

OpenMP是由一组计算机硬件和软件供应商联合定义的应用程序接口(API)。OpenMP为基于共享内存的并行程序的开发人员提供了一种便携式和可扩展的编程模型，其API支持各种架构上的C/C++和 Fortran。

加上一句去调用openmp来实现对程序的并行计算，

SSE 指令集优化（了解即可）

特征工程：

人工特征工程+ 线性模型

GBDT + LR (Facebook) 的论文（筛选特征时的做法，来自论文）

深度学习的应用

Wide & Deep(Google)

优化器选择：

wide 部分用的优化器： :FTRLwithL1-regularization （先简单记住）

deep部分的用的优化器是： AdaGrad .

各种优化器之间的区别

todo 待进一步阅读： https://zhuanlan.zhihu.com/p/40344593

深度学习排序算法发展图：

• https://github.com/shenweichen/DeepCTR

• https://zhuanlan.zhihu.com/p/53231955

DLRM(Facebook)

DeepLearningRecommendationModelforPersonalizationandRecommendationSystems

Previous Core Techniques ：过去的核心技能

• Embeddings

Matrix Factorization
Factorization Machine
Multilayer Perceptrons

字节跳动短视频内容理解与推荐竞赛

https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge

这个已经过期

master/model_zoo/fm.py 的实现

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。