无敌的Log-Likelihood Ratio(1)——LLR的计算方式

最新推荐文章于 2025-09-03 18:55:24 发布

原创

最新推荐文章于 2025-09-03 18:55:24 发布 · 1.8w 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #推荐系统 #nlp

本文详细介绍了Log-Likelihood Ratio(LLR)在推荐系统中的应用，包括其计算方式和代码实现。LLR因其简单有效及可扩展性，被广泛应用于推荐系统中的相似度度量。文章还提供了Mahout库中LLR计算的具体代码。

文章目录

1. LLR的计算方式
2. LLR的代码实现
3 相关疑问
4 参考资料

Ted\; Dunning

在

《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》

中介绍了

Log-Likehood\; Ratio

在文本计算中的基本使用。

L L R

因为实现简单、有效并且具有大规模数据上的可扩展性，能够被很好的使用到工业系统中。因此基于

L L R

的相似度度量广泛应用在推荐系统等多种应用当中。
在这篇Blog中，我们忽略

《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》

中对

L L R

过多的冗余描述，主要集中的去关注

L L R

的计算方式和现有的一些简单有效的代码实现。
本篇博客的组织方式如下。在章节1中，以最简单的方式讨论了

Log-Likelihood\; Ratio

相似度的计算方式，在章节2中讨论了

Log-Likelihood\; Ratio

的具体的代码实现，以及一些可以现用的相似度计算工具。

1. LLR的计算方式

在计算两个事件(例如推荐系统中的点击行为)的 $L L R$ 值来做相似度衡量的时候，我们通过两个事件的计数来计算事件之间的相似度。接下来我们以推荐系统中物品相似度的计算为例来介绍 $L L R$ 的计算方式。
有两个物品分别为物品 $i$ 和物品 $j$ 。对应事件计数的简单形式化描述如下：
$k_{11}$ ：表示同时浏览了物品 $i$ 和物品 $j$ 的用户。
$k_{12}$ ：表示浏览了物品 $i$ ，但是没有浏览物品 $j$ 的用户。
$k_{21}$ ：表示浏览了物品 $j$ ，但是没有浏览物品 $i$ 的用户。
$k_{22}$ ：表示没有浏览物品 $i$ ，并且没有浏览物品 $j$ 的用户。
根据上述，我们可以得到如下的一个表格:

事件	浏览 $Item\;i$	没有浏览 $Item\;i$
浏览 $Item\; j$	$k_{11}$	$k_{21}$
没有浏览 $Item\;j$	$k_{12}$	$k_{22}$

$Item\; i$ 和 $Item\;j$ 的 $L L R$ 计算公式如下：
$S=2\times (H_m - H_c - H_r)$
其中：
$H_m$ 表示上述矩阵的矩阵熵，总体的计算公式如下：
$H_m = - (\frac{k_{11}}{N}\;log(\frac{k_{11}}{N}) + \frac{k_{12}}{N}\;log(\frac{k_{12}}{N}) + \frac{k_{21}}{N}\;log(\frac{k_{21}}{N}) + \frac{k_{22}}{N}\;log(\frac{k_{22}}{N}))$