NLP之关键词提取

本文介绍了关键词提取的重要性和两种主要方法:有监督与无监督。无监督方法中,详细阐述了TF-IDF和TextRank算法的工作原理。TF-IDF通过词频和逆文档频率来衡量词的重要性,而TextRank则基于PageRank的思想,通过关键词的共现关系确定权重。最后,提到了使用jieba包实现这些算法的函数版本。

关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。

关键词提取算法一般分为有监督和无监督两类

有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且词表需要及时维护。

相比较而言,无监督的方法对数据的要求低,既不需要一张人工生成,维护的词表,也不需要人工标注语料辅助训练。目前比较常用的关键词提取算法都是基于无监督算法。如TF-IDF算法,TextRank算法和主题模型算法(包括LSA,LSI,LDA等)

1.TF-IDF算法

TF-IDF是一种数值统计方法,用于反映一个词对于预料中某篇文档的重要性,它的主要思想为:如果某个词在一篇文档中出现的频率高,即TF高;并且在其他文档中很少出现,即IDF高,则认为这个词具有很好的类别区分能力。

TF为词频,表示词t在文档d中出现的频率:tf(word)= (word在文档中出现的次数)/ (文档总词数)

IDF常用的计算公式如下:|D|为文档集中的总文档数,|D_{i}|为文档中出现词i的文档数量。分母加1是采用了拉普拉斯平滑,避免有部分新的词没有在语料库中出现过从而导致分母为零的情况。

idf_{i} = log\left ( |D|/(1+|D_{i}| \right ))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值