2021-08-23

这篇博客介绍了推荐系统中Rank模块的基本概念,包括从粗排到精排的过程,以及CTR预估的重要性。文中提到了FM模型和FFM的特征组合,并探讨了深度学习在Rank模块的应用,如Wide&Deep模型。此外,还讨论了优化器的选择,如FTRL和AdaGrad。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Rech7推荐系统的rank 模块简单介绍 

本文是对七月在线推荐课程rank模块入门介绍的一个简单笔记,本文围绕rank基本总述、ctr预估、FM案例、GBDT+LR、Wide&Deep展开。 

目录

推荐系统的rank 模块简单总述

 ctr 预估: 

 FM的例子

FFM 引入隐向量: 

深度学习的应用  

优化器选择:

推荐系统的rank 模块简单总述

通常做法: 用各种算法做 召回,比如user/item/model-based CF 等作为输入,做粗排(有的没有) 之后交由后面的rank层结合更精细的side_info 做排序,最终展现TopK item给用户。

rank 算法典型应用 

ctr 预估、cvr 预估 、watch time 预估、learning to  rank    ? todo 待请教 

多目标排序

rank 算法应用示意图

 

candidate  召回模块 

DB :数据 索引

PS:  parameter server  模型服务部分

rank 的基本流程: 

典型的机器学习流程 

 ctr 预估: 

ctr预估的是一个二分类问题。

➢ 二分类问题
label:y为0/1
➢ 特征:X
➢ 假设H:p(x) = H(X) ,

        算法核心 ➢ Loss = -y log(p) - (1 - y) log(1 - p)  (交叉熵损失) 

 ➢ 评估: 

        ➢ offline: AUC/MAPE/gauc

        ➢ online: 业务指标(如点击率,停留时长等) 

最基本的算法 LR 

➢ 从统计机器学习的角度 ➢ 特征向量: 𝑋𝑖 

➢ Label:𝑦𝑖
➢ 模型权重: 𝑊
➢假设𝑋𝑖与𝑃 𝑦𝑖 :𝑃 𝑦𝑖 =1 =𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑊∗𝑋𝑖+𝑏)

 

➢经典问题:为什么L1比L2有更强的稀疏性 

参考: https://www.zhihu.com/question/37096933  ,

这个待细查。 视频大概28-20min 

 FM的例子

FM(Factorization Machine)   

参考: FM(FactorizationMachine)是由Konstanz大学SteffenRendle(现任职于Google)于2010年最早提出 的,旨在解决稀疏数据下的特征组合问题 

• 解释
• 进行二元分类时,FM的输出需要经过sigmoid变换,这与Logistic回归是一样的 • 自动特征组合(某种意义上)
• 特征组合参数n*(n-1)/2
• 引入特征隐向量,参数n*k个 

• 直观上看,FM的复杂度是O(kn2)。
• 但是,FM的二次项可以化简,其复杂度可以优化到O(kn)

tensorflow 里实现FM  : https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge/blob/master/model_zoo/fm.py

FFM 引入隐向量: 

通过引入field的概念,FFM把相同性质的特征归于同一个field。 

FFM中,每一维特征xi,针对其它特征的每一种fj,都会学习一个隐向量𝑣𝑖,𝑓𝑗。因此,隐向量不仅与特征 相关,也与field相关。也就是说,“Day=26/11/15”这个特征与“Country”特征和“Ad_type”特征进行关 联的时候使用不同的隐向量,这与“Country”和“Ad_type”的内在差异相符,也是FFM中“field-aware” 的由来。 

OpenMP (工程实现里封装里的trick)

OpenMP是由一组计算机硬件和软件供应商联合定义的应用程序接口(API)。OpenMP为基于共享内存 的并行程序的开发人员提供了一种便携式和可扩展的编程模型,其API支持各种架构上的C/C++和 Fortran。 

加上一句去调用openmp来实现对程序的并行计算, 

SSE 指令集优化  (了解即可)

特征工程  : 

人工特征工程+ 线性模型 

GBDT + LR (Facebook)  的论文( 筛选特征时的做法,来自论文) 

 

深度学习的应用  

Wide & Deep(Google) 

 

 

 

 

优化器选择:

wide 部分用的优化器 : :FTRLwithL1-regularization (先简单记住) 

deep部分的用的优化器是:  AdaGrad  . 

各种优化器之间的区别

todo 待进一步阅读 : https://zhuanlan.zhihu.com/p/40344593 

深度学习排序算法发展图: 

 

https://github.com/shenweichen/DeepCTR

• https://zhuanlan.zhihu.com/p/53231955 

DLRM(Facebook) 

DeepLearningRecommendationModelforPersonalizationandRecommendationSystems 

Previous Core Techniques : 过去的核心技能

  • Embeddings 

  • Matrix Factorization 
  • Factorization Machine
  • Multilayer Perceptrons

字节跳动短视频内容理解与推荐竞赛

https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge 

这个已经过期

master/model_zoo/fm.py 的实现  

资源下载链接为: https://pan.quark.cn/s/f989b9092fc5 今天给大家分享一个关于C#自定义字符串替换方法的实例,希望能对大家有所帮助。具体介绍如下: 之前我遇到了一个算法题,题目要求将一个字符串中的某些片段替换为指定的新字符串片段。例如,对于源字符串“abcdeabcdfbcdefg”,需要将其中的“cde”替换为“12345”,最终得到的结果字符串是“ab12345abcdfb12345fg”,即从“abcdeabcdfbcdefg”变为“ab12345abcdfb12345fg”。 经过分析,我发现不能直接使用C#自带的string.Replace方法来实现这个功能。于是,我决定自定义一个方法来完成这个任务。这个方法的参数包括:原始字符串originalString、需要被替换的字符串片段strToBeReplaced以及用于替换的新字符串片段newString。 在实现过程中,我首先遍历原始字符串,查找需要被替换的字符串片段strToBeReplaced出现的位置。找到后,就将其替换为新字符串片段newString。需要注意的是,在替换过程中,要确保替换操作不会影响后续的查找和替换,避免遗漏或重复替换的情况发生。 以下是实现代码的大概逻辑: 初始化一个空的字符串result,用于存储最终替换后的结果。 使用IndexOf方法在原始字符串中查找strToBeReplaced的位置。 如果找到了,就将originalString中从开头到strToBeReplaced出现位置之前的部分,以及newString拼接到result中,然后将originalString的查找范围更新为strToBeReplaced之后的部分。 如果没有找到,就直接将剩余的originalString拼接到result中。 重复上述步骤,直到originalStr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值