PMI

Pointwise mutualinformation(PMI), point mutual information是衡量两个随机变量的相关度

  X,Y 独立,则PMI(X,Y)= log1=0

  X,Y相关,P(X)与P(X|Y)的大小不确定

完全相关时,为Log(1/P(x)) 或Log(1/P(Y)) >0

MI为PMI的期望。

例子:

 

 MI (X,Y)=0.2141709

 ================

 

自信息和PMI

 

 ======================

归一化的PMI  归一化到[-1,+1]  :0 时不相关、-1时从不共现 1时完全共现

PMI(适用于MI)链式法则:


证明如下:

 

应用:PMI被用来寻找词语之间的搭配和关联

 

好的搭配组合有很高的PMI,因为共发生的概率只是比每个单词出现的概率稍微低一些。相反地,一对单词的出现概率要比它们共同发生的概率高得多,得到一个小的PMI分数。

举例:

我们想衡量like这个词的极性(正向情感还是负向情感)。我们可以预先挑选一些正向情感的词,比如good。然后我们算like跟good的PMI

其中p(like)是like在语料库中出现的概率(出现次数除以总词数N),p(like,good)表示like跟good在一句话中同时出现的概率(like跟good同时出现的次数除以N2)。

PMI(like,good)越大表示like的正向情感倾向就越明显。

 

参考:

https://en.wikipedia.org/wiki/Pointwise_mutual_information

http://www.rainng.com/pmi/

 


<think>好的,我现在需要处理用户关于PMI注释、含义和解释的查询。首先,用户提到了几个引用,其中引用[1]详细说明了PMI的结果分析,而其他引用涉及Tomcat配置和尺寸值获取,可能与当前问题无关。因此,我应该专注于引用[1]中的内容。 用户可能不太清楚PMI的具体定义和应用场景,尤其是SO-PMI的概念。需要先解释PMI的基本概念,即点互信息,用于衡量两个事件之间的相关性。然后根据引用[1]中的分类,说明PMI>0、=0、<0时的不同含义,并结合例子帮助理解。此外,SO-PMI作为PMI的扩展,可能需要简要介绍其用途,比如在情感分析中的应用。 接下来,用户可能还需要了解PMI的计算方法,但引用中没有提供公式,所以是否需要补充?不过根据用户提供的引用,应该严格基于已有信息回答。因此,避免添加未提及的公式,但可以建议进一步学习PMI的计算方式。 最后,生成相关问题时要围绕PMI的相关概念、应用、计算和扩展方法,确保问题有助于用户深入理解主题。需要检查是否符合格式要求,使用中文,正确应用引用标记,并分点列出问题。</think>### PMI的注释与含义解释 PMI(Pointwise Mutual Information,点互信息)是一种用于衡量两个事件之间关联性的指标,常用于自然语言处理、信息检索等领域。 #### 1. PMI的基本定义 PMI通过统计两个词语$X$和$Y$的共现概率与独立出现概率的比值来量化关联性。根据引用[^1]: - 当$PMI>0$时,两个词语相关,值越大关联性越强; - 当$PMI=0$时,两个词语独立; - 当$PMI<0$时,两个词语不相关。 例如,若词语“人工智能”和“机器学习”常同时出现,其PMI值可能较高;而“苹果”(水果)与“火箭”的PMI值可能较低甚至为负。 #### 2. SO-PMI的扩展应用 SO-PMI(Semantic Orientation PMI)是PMI的扩展方法,用于情感分析。通过选择一组已知情感倾向的基准词(如“优秀”“糟糕”),计算目标词与基准词的PMI差值,从而判断目标词的情感极性。 #### 3. 实际应用场景 PMI在以下场景中广泛应用: - **关键词提取**:识别文档中强相关的词语组合; - **情感分析**:通过SO-PMI判断词汇的情感倾向; - **推荐系统**:分析用户行为数据的关联性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值