(九)通俗易懂理解——TF-IDF与TextRank

这两个可以说自然语言处理当中比较经典的关键词提取算法,虽然简单,但是应用还是相当广泛,面试中被问起这两个,不能说清楚也是一件很尴尬的事情。废话不多说,直接开始。

1. TF-IDF简介

TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词w对于查询(Query,可看作文档)所能提供的信息。词频(Term Frequency, TF)表示关键词w在文档Di中出现的频率:

 

其中,count(w)为关键词w的出现次数,|Di|为文档Di中所有词的数量。逆文档频率(Inverse Document Frequency, IDF)反映关键词的普遍程度——当一个词越普遍(即有大量文档包含这个词)时,其IDF值越低;反之,则IDF值越高。IDF定义如下:

其中,N为所有的文档总数,I(w,Di)表示文档Di是否包含关键词,若包含则为1,若不包含则为0。若词w在所有文档中均未出现,则IDF公式中的分母为0;因此需要对IDF做平滑(smooth):

关键词w在文档Di的TF-IDF值:

从上述定义可以看出:

  • 当一个词在文档频率越高并且新鲜度高(即普遍度低),其TF-IDF值越高。

  • TF-IDF兼顾词频与新鲜度,过滤一些常见词,保留能提供更多信息的重要词。

2. TextRank简介

TextRank由Mihalcea与Tarau于EMNLP'04 [1]提出来,其思想非常简单:通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边,迭代计算公式如下:

其中,PR(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑。

网页之间的链接关系可以用图表示,那么怎么把一个句子(可以看作词的序列)构建成图呢?TextRank将某一个词与其前面的N个词、以及后面的N个词均具有图相邻关系(类似于N-gram语法模型)。具体实现:设置一个长度为N的滑动窗口,所有在这个窗口之内的词都视作词结点的相邻结点;则TextRank构建的词图为无向图。下图给出了由一个文档构建的词图(去掉了停用词并按词性做了筛选):

考虑到不同词对可能有不同的共现(co-occurrence),TextRank将共现作为无向图边的权值。那么,TextRank的迭代计算公式如下:

可以看出,该公式仅仅比PageRank多了一个权重项Wji,用来表示两个节点之间的边连接有不同的重要程度。

在这里算是简单说明了TextRank的内在原理,以下对其关键词提取应用做进一步说明。

TextRank用于关键词提取的算法如下:

1)把给定的文本T按照完整句子进行分割,即

2)对于每个句子Si属于T,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即

,其中 ti,j 是保留后的候选关键词。

  3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

  4)根据上面公式,迭代传播各节点的权重,直至收敛。

  5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。

  6)由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

2.1 TextRank算法提取关键词短语

  提取关键词短语的方法基于关键词提取,可以简单认为:如果提取出的若干关键词在文本中相邻,那么构成一个被提取的关键短语。

2.2 TextRank生成摘要

  将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边。考察句子相似度的方法是下面这个公式:

 

 

公式中,Si,Sj分别表示两个句子词的个数总数,Wk表示句子中的词,那么分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。

我们可以根据以上相似度公式循环计算任意两个节点之间的相似度,根据阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后计算TextRank值,最后对所有TextRank值排序,选出TextRank值最高的几个节点对应的句子作为摘要。

 

3.对比总结:

  • TextRank与TFIDF均严重依赖于分词结果——如果某词在分词时被切分成了两个词,那么在做关键词提取时无法将两个词黏合在一起(TextRank有部分黏合效果,但需要这两个词均为关键词)。因此是否添加标注关键词进自定义词典,将会造成准确率、召回率大相径庭。

  • TextRank的效果并不优于TFIDF。

  • TextRank虽然考虑到了词之间的关系,但是仍然倾向于将频繁词作为关键词。

此外,由于TextRank涉及到构建词图及迭代计算,所以提取速度较慢。

发现以上两种方法本质上还是基于词频,这也导致了我们在进行自然语言处理的时候造成的弊端,因为我们阅读一篇文章的时候,并不是意味着主题词会一直出现,特别对于中文来说,蕴含的中心思想也往往不是一两个词能够说明的,这也是未来自然语言方面要解决的基于语义的分析,路还很长。

 

参考文章:https://www.cnblogs.com/en-heng/p/6626210.html

参考文章:https://www.cnblogs.com/xueyinzhe/p/7101295.html

使用TF-IDFTextRank算法提取文本中的关键段落是自然语言处理中常见的任务,尤其适用于关键词抽取和摘要生成。以下是基于TF-IDFTextRank的实现方法及代码示例。 ### 3.1 TF-IDF 提取关键段落 TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在文档中的重要程度。通过计算每个词的TF-IDF值,可以提取出文档中的关键词或关键段落。 #### 3.1.1 实现方法 - **分词**:对文本进行分词处理。 - **计算TF-IDF值**:通过TF-IDF算法计算每个词的权重。 - **提取关键词**:根据权重排序,提取权重最高的关键词或关键段落。 #### 3.1.2 代码示例 使用 `jieba` 库进行 TF-IDF 关键词提取: ```python import jieba.analyse # 示例文本 text = "自然语言处理是人工智能领域的一个重要分支,文本摘要技术在信息检索中扮演着重要角色。" # 使用TF-IDF提取关键词 keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True) # 输出结果 for keyword, weight in keywords: print(f"关键词: {keyword}, 权重: {weight}") ``` ### 3.2 TextRank 提取关键段落 TextRank 是一种基于图模型的排序算法,它通过分析词语之间的共现关系,计算每个词的重要性。TextRank 通常用于单文档的关键词抽取和摘要生成。 #### 3.2.1 实现方法 - **构建图模型**:将文本中的词语作为图中的节点。 - **计算相似度**:通过词语之间的共现关系,计算相似度。 - **排序并提取关键词**:根据排名提取关键词或关键段落。 #### 3.2.2 代码示例 使用 `jieba` 库进行 TextRank 关键词提取: ```python import jieba.analyse # 示例文本 text = "自然语言处理是人工智能领域的一个重要分支,文本摘要技术在信息检索中扮演着重要角色。" # 使用TextRank提取关键词 keywords = jieba.analyse.textrank(text, topK=5, withWeight=True) # 输出结果 for keyword, weight in keywords: print(f"关键词: {keyword}, 权重: {weight}") ``` ### 3.3 段落提取的扩展 在实际应用中,如果需要提取整个文档中的关键段落,可以通过以下步骤: 1. **段落分割**:将文档按段落分割。 2. **段落评分**:为每个段落计算 TF-IDFTextRank 的综合得分。 3. **排序并提取**:选择得分最高的段落作为关键段落。 #### 3.3.1 段落评分代码示例 ```python from sklearn.feature_extraction.text import TfidfVectorizer # 示例文档集合 documents = [ "自然语言处理是人工智能领域的一个重要分支", "文本摘要技术在信息检索中扮演着重要角色", "TF-IDF算法是抽取式摘要的基础", "语义分析TF-IDF权重调整是提升摘要质量的关键" ] # 初始化TF-IDF向量化器 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(documents) # 计算每个段落的TF-IDF总得分 scores = tfidf_matrix.sum(axis=1) # 获取得分最高的段落 best_paragraph_index = scores.argmax() best_paragraph = documents[best_paragraph_index[0]] print("关键段落:", best_paragraph) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值