NLP-关键词提取算法

提取文章关键词,可以分为有监督和无监督两种,有监督精度高,但是人力成本也高,同时不能处理新词。无监督不需要人工标注,常用无监督关键词提取算法分为TF-IDF算法,TextRank算法 和主题模型算法。

TF-IDF算法 (词频-逆文档频次算法)

一种基于统计的计算方法,常用于一个词对所在文档的重要程度。
TF算法统计一个词在一篇文档中出现的频次,这个词出现的越多,则其对文档的表达能力也就越强。
IDF算法统计一个词在多篇文档中出现的频次,频次越低,则其对文档的区分能力也就越强。
两种算法同时使用,来提取文章关键词。

TextRank算法

TF-IDF算法需要对多篇文档学习才能提取文章关键词,TextRank算法仅对单篇文档进行分析就可以提取该文档的关键词。

TextRank算法最早用于文档自动摘要,基于句子维度的分析,利用textrank对每个句子进行打分,挑选出分数最高的n个句子作为文档的关键句子,以达到自动摘要的效果。

TextRank算法基本思想基于PageRank算法,PageRank是一种网页排名算法。PageRank是有向无权图,TextRank是有权图。
PageRank基本思想有2条:

  1. 链接数量(网页被多少个网页链接)
  2. 链接质量(网页被连接的 网页的权值,权值越高,质量也高)
    一个网页的得分,是他所有入链得分的和。每个入链的得分是目标出链得分的1/n。

比如链接A被连接B引用,链接B一共引用了N个网页,则链接B对A的得分贡献就是1/N, 如果链接A一共被2个链接引用(另一个链接是C,C一共引用了M个网页),那么A的得分就是1/M+1/N。
如果有一个孤立网页,则该网页得分为1。

TextRank计算每个句子给它的链接句的贡献时,不是通过平均分配的比例分配权重,而是通过计算两个句子的相似度来分配比例。
TextRank应用到关键词抽取时,与应用在自动摘要中不同:

  1. 词与词之间没有权重
  2. 每个词不是与文档中所有词关联(只与窗口中的词关联,窗口大小可以设定)
主题算法 LSA/LSI/LDA

TF-IDF和TextRank算法只能提取显式出现在文章中的词,主题算法用于提取文章中隐式存在的词。
LSA(潜在语义分析)和LSI(潜在语义索引),常认为是一种算法,只是应用场景不同,LSA是在需要构建的相关任务的叫法。他们都会对潜在语义进行分析,LSI在分析后会利用分析的结果建立相关的索引。

  1. LSA使用BOW模型将每个文档表示问向量
  2. 将所有文档词向量拼接起来构成词-文档矩阵
  3. 对词-文档矩阵进行SVD操作
  4. 根据SVD结果,将词文档矩阵映射到更低维度的近似SVD结果,通过计算每个词和文档的相似度,可以得到每个文档中对每个词的相似度结果,取相似度最高的一个词即为文档关键词。
    LSA使用SVD这一暴力方法,近似求出word-topic-document的分布信息,但是也有缺点,计算复杂度高,特征空间维度大,计算效率低。

LDA(隐含狄利克雷分布)是LSA的改进型算法。
LDA算法的理论基础是贝叶斯理论,根据词的共现信息的分析,拟合出词-文档-主题的分布,进而将词、文本映射到一个语义空间中。
结合吉布斯采样的LDA模型训练过程:

  1. 随机初始化,对语料中每篇文档中每个词w,随机赋予一个topic编号z
  2. 重新扫描语料库,对每个词按照吉布斯采样公式重新采样它的topic,在语料中进行更新
  3. 重复以上语料库的重新采样过程直到吉布斯采样收敛
  4. 统计语料库的topic-word共现频率矩阵,该矩阵就是LDA模型

使用以上方式训练好的LD模型,对新文档topic进行评估,步骤:

  1. 随机初始化,对当前文档中每个词w,随机赋一个topic编号z
  2. 重新扫描当前文档,按照吉布斯采样公式,重新采样它的topic
  3. 重复以上过程直到吉布斯采样收敛
  4. 统计文档中的topic分布即为预估结果

以上算法得到词的分布信息后,计算文档与词的相似性,从而得到文档最相似的词列表,最后就可以得到文档的关键词。

jeiba分词主要使用了textRank算法,gensim中封装了TF-IDF,LSA,LDA和 word2vec在内的多种主题模型算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值