【NLP系列2】基于TF-IDF、TextRank的关键词提取

最新推荐文章于 2024-01-22 12:30:03 发布

原创

最新推荐文章于 2024-01-22 12:30:03 发布 · 980 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#NLP

对于文本的关键词提取方式：

1、基于 TF-IDF 算法的关键词抽取
（1）基本思想：
用更合理的方式体现词在文本中的权重（缺点：词在文档中的顺序没有体现）。
TF-IDF = TF*IDF
词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）
在阿瑟东这里插入图片描述上式分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。
逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。是指总文件数目除以包含该词语之文件的数目，再将得到的商取加上有1，取10为底的对数得到：在这里插入图片描述 N表示文档的总数量;nt表示含有词t的文档数。
（2）参数

import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

（3）案例：

df =pd.read_csv('data/technology_news.csv',encoding=

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

马苏比拉米G

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

『NLP学习笔记』TF-IDF算法进行关键词提取(Python迭代器、sorted、lambda、filter)

AI新视界

09-21

1809

TF-IDF算法进行关键词提取！文章目录一. 关键词二. TF-IDF关键词提取算法三. 算法实现一. 关键词 关键词 是指能反映文本主题或者意思的词语，如论文中的Keyword字段。关键词提取是文本挖掘领域一个很重要的部分，通过对文本提取的关键词可以窥探整个文本的主题思想，进一步应用于文本的推荐或文本的搜索。常用的关键词提取算法：TF-IDF算法、TextRank算法。二. TF-IDF关键词提取算法 TF-IDF(Term frequency-inverse document fr

自然语言处理TF-IDF关键词提取算法

mccccccy的博客

03-23

8675

自然语言处理TF-IDF关键词提取算法 1、关键词提取简介 关键词是指能反映文本主题或者主要内容的词语。关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来，是NLP领域的一个重要的子任务。在信息检索中，准确的关键词提取可以大幅提升效率；在对话系统中，机器可以通过关键词来理解用户意图；在文本分类中，关键词的发现也非常有帮助。关键词能让我们快速了解文章所讲内容，但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么，这个时候就需要利用计算机自动抽取出关键词，算法的好坏直接决定了后续步骤的效果。

参与评论您还未登录，请先登录后发表或查看评论

关键词提取(tf-idf与textRank)

gzt940726的博客

05-09

1万+

关键词提取(tf-idf与textRank) 一.tf-idf tf-idf提取关键词是一种简单有效的提取关键词的方法.其思想主要在于预先统计在语料中出现的所有词的词频,计算出idf值,然后再针对要提取关键词的文章或句子的每个词计算出tf值,乘起来便是tf-idf值.值越大表示作为关键词的优先级越高. 假设现在语料一共有M篇文章,其中词A在其中m篇中出现过了,那么A的idf值为log(M/m...

（九）通俗易懂理解——TF-IDF与TextRank

qq_36696494的博客

04-04

1403

这两个可以说自然语言处理当中比较经典的关键词提取算法，虽然简单，但是应用还是相当广泛，面试中被问起这两个，不能说清楚也是一件很尴尬的事情。废话不多说，直接开始。 1. TF-IDF简介 TF-IDF（Term Frequency/Inverse Document Frequency）是信息检索领域非常重要的搜索词重要性度量；用以衡量一个关键词w对于查询（Query，可看作文档）所能提供的信息。...

【推荐系统】基于TextRank算法+TF-IDF算法提取关键词

wssjdysf1的专栏

01-25

759

TextRank代码实现 package program import algorithm.TextRank import org.apache.spark.sql.SaveMode import util.{SegmentWordUtil, SparkSessionBase} import scala.collection.mutable import scala.collection.mutable.ListBuffer object ComputeTextR...

利用Python实现中文文本关键词抽取的三种方法

weixin_73004416的博客

01-22

1万+

一篇文档的关键词等同于最能表达文档主旨的N个词语，即对于文档来说最重要的词，因此，可以将文本关键词抽取问题转化为词语重要性排序问题，选取排名前TopN个词语作为文本关键词。本文总结了三种常用的抽取文本关键词的方法：TF-IDF、TextRank和Word2Vec词向量聚类，并做了原理、流程以及代码的详细描述。

关键词提取：TF-IDF和n-gram

sjyttkl的专栏

04-12

7222

一：今日相亲搭档镇楼。今天的头版给我漂亮的搭档，啥年芳二六、待字闺中之类的矫情话就不说了，希望看到文章的小伙子，如果对眼，请放下你手中的游戏，我可以牵线搭桥。好好相爱，就是为民除害。搭档是重庆妹纸，重庆妹纸长得是很水灵。搭档给我的感觉是情商比较高，比较会捧哏，说话不会闷。搭档身高160体重100，学历本科水瓶座，目前在重庆的银行工作。以下为搭档的自我介绍：性格慢热，...

自然语言处理之TF-IDF算法与TextRank算法的缠绵_textrank,tf-idf和两者的组合-优快云博客.html

最新发布

04-01

自然语言处理领域中，TF-IDF算法与TextRank算法都是重要的技术手段，它们在信息检索和文本摘要等任务中发挥着核心作用。TF-IDF算法的核心思想是通过统计词频来评估一个词语在文档集合中的重要程度，而TextRank算法则...

基于jieba分词的TF-IDF和TextRank提取关键字

finny7的博客

12-25

830

中文分词对于NLP（自然语言处理）来说，分词是一步重要的工作，市面上也有各种分词库，11款开放中文分词系统比较。 1.基于词典：基于字典、词库匹配的分词方法；（字符串匹配、机械分词法） 2.基于统计：基于词频度统计的分词方法； 3.基于规则：基于知识理解的分词方法。第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语...

基于TF-IDF挖掘符合语言规范的N-GRAM

syp_net的博客

05-18

1084

基于TF-IDF挖掘符合语言规范的N-GRAM 本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦： Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传 LaTex数学公式 UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl ...

对文章中的关键词抽取textrank算法进行了性能和准确率优化

09-21

自动摘要，就是从文章中自动抽取关键句。人类对关键句的理解通常是能够概括文章中心的句子，而机器只能模拟人类的理解，即拟定一个权重的评分标准，给每个句子打分，之后给出排名靠前的几个句子。基于 TextRank 的自动文摘属于自动摘录，通过选取文本中重要度较高的句子形成文摘。我们是要抽取关键句，因而是以句子为基本单位。使用 TextRank 提取摘要的整个过程如下：预处理：将文本分割成句子 S1,S2,⋯,SmS1,S2,⋯,Sm，以句子为节点构建图。计算句子相似度：对句子进行分词、取停用词等处理，以便于计算任意两个句子之间的相似度。将计算好的句子相似度作为两个句子构成的边的权值。句子权重：根据公式，迭代传播权重计算各句子的得分。抽取文摘句：得到的句子得分进行倒序排序，抽取重要度最高的 N 个句子作为候选文摘句。形成文摘：根据字数或句子数要求，从候选文摘句中抽取句子组成文摘。

关键词提取算法 textRank python实现

11-21

python实现的textRank算法，用于文本无语料训练下的关键词提取

NLP基础处理流程&Torch版TFIDF&Ngram

weixin_43069769的博客

08-06

584

import numpy as np import torch import re import jieba import pandas as pd from tqdm import tqdm import os.path from os import listdir import torch from IPython.display import display, Image from itertools import permutations #显示所有列 pd.set_option('display.

NLP之关键词提取（TF-IDF、Text-Rank）

weixin_30770783的博客

06-19

798

1.文本关键词抽取的种类： 关键词提取方法分为有监督、半监督和无监督三种，有监督和半监督的关键词抽取方法需要浪费人力资源，所以现在使用的大多是无监督的关键词提取方法。无监督的关键词提取方法又可以分为三类：基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。 2.基于统计特征的有个最简单的方法，利用TF-IDF效果不错对于未登录词其IDF值的常用计算以及...

关键词抽取算法介绍：TF-IDF和TextRank

anshuai_aw1的博客

11-25

5172

一、前言 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度；从某天所有的新闻中提取出这些新闻的关...

文本处理算法_关键词提取和文本摘要算法TextRank详解及实战

weixin_39640203的博客

11-20

981

关键词提取和文本摘要算法TextRank详解及实战写在前面最近一直没有更新文章，实在惭愧。伴随着小老弟的职业方向由风控转向了NLP，后面的文章也会集中在NLP领域，希望大家能够继续支持~导读本文围绕原理和特点介绍了关键词提取和文本摘要算法TextRank，并给出了实现代码和算法效果。TextRank主要有关键词提取和文本摘要两个功能，在Jieba分词里也有集成，在介绍TextRank...

TextRank方法的优化——MMR(最大边界相关算法)

weixin_42318554的博客

05-02

1520

文章目录TextRank方法的优化——MMR(最大边界相关算法)一、文件目录二、TextRank(main.py)实验结果 TextRank方法的优化——MMR(最大边界相关算法) TextRank的优点：在于不需要标注数据，不需要进行预训练，效果尚可。但是缺点也很明显。从其核心思想可以看出来，它挑选摘要句时会侧重于挑选那些与很多句子相似度高的句子。因此，最后会导致挑选的很多句子冗余度比较高，从而遗漏一些带有其他主题信息却“势单力薄“的句子。 MMR算法：又叫最大边界相关算法，此算法在设计之初是用来计

TextRank算法的基本原理及textrank4zh使用实例