无敌的Log-Likelihood Ratio(2)——LLR在推荐系统中的使用

最新推荐文章于 2025-09-03 18:55:24 发布

原创

最新推荐文章于 2025-09-03 18:55:24 发布 · 6.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#推荐系统 #大数据 #spark #相似度计算 #nlp

本文探讨了Log-Likelihood Ratio(LLR)在推荐系统中的应用，详细讲解了LLR的计算公式及其在电影推荐场景下的具体实现，包括相似度计算、数据集处理、实时部署及冷启动问题解决方案。

文章目录

1. 相似度计算
- 1.1 相似度计算公式
- 1.2 推荐场景LLR的计算逻辑
2. 相关数据集实现
3. 实时部署及可能遇到问题
- 3.1 线上实时部署
- 3.2 冷启动问题
4 问题
参考资料

在这篇文章中我们基于《无敌的Log-Likelihood Ratio(1)——LLR的计算方式》中所介绍的

L L R

计算方式，具体的介绍一下

L L R

在推荐系统业务中的具体落地和使用。本文以电影推荐为例，简要阐述

L L R

在推荐系统中具体的使用和落地。
本文具体的组织结构如下：在第1节中主要回归了

L L R

的计算公式和推荐系统场景下相似度的计算。在第2节中，我们主要介绍了

L L R

相似度计算在公开的推荐相关数据集上的使用。在第3节中讨论了如何完成

L L R

相似度推荐在线上实时推荐的部署情况和可能存在的一些问题。在第4节中讨论几个我能够想到并关注的问题。

1. 相似度计算

1.1 相似度计算公式

在基于物品相似度的推荐中，我们主要通过 $L L R$ 来衡量两个物品之间的相似度。当两个物品在用户的交互行为中共同出现的次数越多和其他物品共同出现的次数越少，理论上认为这两个物品越相似度越高。
在计算两个物品相似度之前，我们需要能够建立衡量两个物品共现关系的 $2\times2$ 的矩阵如下所示。

	与 $Item\;j$ 发生交互	没有与 $item\;j$ 发生交互
与 $item\; i$ 发生交互	$K_{11}$	$K_{12}$
没有与 $item\; i$ 发生交互	$K_{21}$	$K_{22}$

根据共现次数矩阵结合《无敌的Log-Likelihood Ratio(1)——LLR的计算方式》给出的计算原理，可以计算物品 $i$ 和物品 $j$ 的相似度如下。
$S=2\times(H(colSum(K)) + H(rowSum(K))-H(K)) \\ \; \\ = 2 \times(\frac{K_{11}}{N}\;log(\frac{K_{11}}{N}) + \frac{K_{12}}{N}\;log(\frac{K_{12}}{N}) + \frac{K_{21}}{N}\;log(\frac{K_{21}}{N}) + \frac{K_{22}}{N} log\;(\frac{K_{22}}{N}) \\ \; \\ -(\frac{K_{11} + K_{12}}{N}log\;(\frac{K_{11} + K_{12}}{N}) + \frac{K_{21} + K_{22}}{N} log(\frac{K_{21} + K_{22}}{N})) \\ \; \\ -(\frac{K_{11} + K_{21}}{N}log\;(\frac{K_{11} + K_{21}}{N}) + \frac{K_{12} + K_{22}}{N} log(\frac{K_{12} + K_{22}}{N})))$