点互信息(Pointwise Mutual Information,简称 PMI)是一种用于衡量两个事物之间关联程度的指标,在自然语言处理等领域有广泛应用。
一、定义
点互信息用于计算两个事件同时发生的概率与它们各自独立发生概率的乘积之间的关系。在自然语言处理中,通常用于衡量两个词共同出现的概率与它们各自单独出现概率的关联程度。
二、计算公式
三、应用场景
例如在文本分析中,如果两个词经常一起出现,那么它们的 PMI 值就会较高,说明这两个词之间的关联比较紧密。反之,如果两个词很少一起出现,PMI 值就会较低,表明它们的关联较弱。
四、作用
点互信息可以帮助我们发现文本中的重要词汇组合、提取关键词、构建语义网络等。比如在关键词提取任务中,可以通过计算每个词与文档主题词的 PMI 值,选择 PMI 值较高的词作为关键词,从而更好地概括文档的主要内容。