T e d D u n n i n g Ted\; Dunning TedDunning在 《 A c c u r a t e M e t h o d s f o r t h e S t a t i s t i c s o f S u r p r i s e a n d C o i n c i d e n c e 》 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 《AccurateMethodsfortheStatisticsofSurpriseandCoincidence》中介绍了 L o g − L i k e h o o d R a t i o Log-Likehood\; Ratio Log−LikehoodRatio在文本计算中的基本使用。 L L R LLR LLR因为实现简单、有效并且具有大规模数据上的可扩展性,能够被很好的使用到工业系统中。因此基于 L L R LLR LLR的相似度度量广泛应用在推荐系统等多种应用当中。
在这篇Blog中,我们忽略 《 A c c u r a t e M e t h o d s f o r t h e S t a t i s t i c s o f S u r p r i s e a n d C o i n c i d e n c e 》 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 《AccurateMethodsfortheStatisticsofSurpriseandCoincidence》中对 L L R LLR LLR过多的冗余描述,主要集中的去关注 L L R LLR LLR的计算方式和现有的一些简单有效的代码实现。
本篇博客的组织方式如下。在章节1中,以最简单的方式讨论了 L o g − L i k e l i h o o d R a t i o Log-Likelihood\; Ratio Log−LikelihoodRatio相似度的计算方式,在章节2中讨论了 L o g − L i k e l i h o o d R a t i o Log-Likelihood\; Ratio Log−LikelihoodRatio的具体的代码实现,以及一些可以现用的相似度计算工具。
1. LLR的计算方式
在计算两个事件(例如推荐系统中的点击行为)的 L L R LLR LLR值来做相似度衡量的时候,我们通过两个事件的计数来计算事件之间的相似度。接下来我们以推荐系统中物品相似度的计算为例来介绍 L L R LLR LLR的计算方式。
有两个物品分别为物品 i i i和物品 j j j。对应事件计数的简单形式化描述如下:
k 11 k_{11} k11:表示同时浏览了物品 i i i和物品 j j j的用户。
k 12 k_{12} k12:表示浏览了物品 i i i,但是没有浏览物品 j j j的用户。
k 21 k_{21} k21:表示浏览了物品 j j j,但是没有浏览物品 i i i的用户。
k 22 k_{22} k22:表示没有浏览物品 i i i,并且没有浏览物品 j j j的用户。
根据上述,我们可以得到如下的一个表格:
| 事件 | 浏览 I t e m i Item\;i Itemi | 没有浏览 I t e m i Item\;i Itemi |
|---|---|---|
| 浏览 I t e m j Item\; j Itemj | k 11 k_{11} k11 | k 21 k_{21} k21 |
| 没有浏览 I t e m j Item\;j Itemj | k 12 k_{12} k12 | k 22 k_{22} k22 |
I t e m i Item\; i Itemi和 I t e m j Item\;j Itemj的 L L R LLR LLR计算公式如下:
S = 2 × ( H m − H c − H r ) S=2\times (H_m - H_c - H_r) S=2×(Hm−Hc−Hr)
其中:
H m H_m Hm表示上述矩阵的矩阵熵,总体的计算公式如下:
H m = − ( k 11 N l o g ( k 11 N ) + k 12 N l o g ( k 12 N ) + k 21 N l o g ( k 21 N ) + k 22 N l o g ( k 22 N ) ) H_m = - (\frac{k_{11}}{N}\;log(\frac{k_{11}}{N}) + \frac{k_{12}}{N}\;log(\frac{k_{12}}{N}) + \frac{k_{21}}{N}\;log(\frac{k_{21}}{N}) + \frac{k_{22}}{N}\;log(\frac{k_{22}}{N})) Hm=−(Nk11log(Nk11)+Nk

本文详细介绍了Log-Likelihood Ratio(LLR)在推荐系统中的应用,包括其计算方式和代码实现。LLR因其简单有效及可扩展性,被广泛应用于推荐系统中的相似度度量。文章还提供了Mahout库中LLR计算的具体代码。
最低0.47元/天 解锁文章
6914

被折叠的 条评论
为什么被折叠?



