TF-IDF关键词抽取Python实现

最新推荐文章于 2024-05-12 19:03:25 发布

原创

最新推荐文章于 2024-05-12 19:03:25 发布 · 3k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#python #sklearn #tf-idf

文章目录

原理
调用jieba（免训练）
Python手写
sklearn
gensim
手写、sklearn、gensim结果比较

原理

TF（Term Frequency）：词频

$\frac{该词频数}{文档词语总数}$

IDF（Inverse Document Frequency）：逆文本频率指数

$\log(\frac{文档总数}{出现该词文档数+1})$

调用jieba（免训练）

from jieba.analyse import tfidf
sentence = '佛山市科技局发布关于发展佛山市人工智能项目的通知'
print(tfidf(sentence))
print(tfidf(sentence, allowPOS=('n', 'ns', 'v', 'vn')))  # 按词性筛选
print(tfidf(sentence, allowPOS=('n', 'ns', 'v', 'vn'), withFlag=True))  # 返回词性
print(tfidf(sentence, withWeight=True))  # 返回权重

打印结果

['佛山市', '科技局', '人工智能'</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小基基o_O

关注关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

自然语言处理之文本摘要：TF-IDF：关键词提取与TF-IDF

zhubeibei168的博客

06-01

643

TF-IDF在文本摘要中用于识别文档中最重要的句子。通常，句子中包含的高TF-IDF值的词越多，该句子在摘要中的重要性越高。抽取式摘要（Extractive Summarization）是一种文本摘要技术，它通过从原始文本中选择关键句子或片段来生成摘要，这些关键部分通常包含了文本的主要信息。抽取式摘要的核心在于识别哪些句子或片段最能代表整个文档的内容，而这一过程往往依赖于文本中词语的统计特征，如词频（TF）和逆文档频率（IDF）。文本预处理：包括分词、去除停用词、标点符号等。计算TF-IDF值。

Python实现TF-IDF算法

BUG？不存在的！

04-25

1366

其中TF(w, i)表示词w在文档i中的词频(Term Frequency)，即w在文档i中出现的次数除以文档i中总的单词数。可以看到，通过TF-IDF算法，我们得到了一个包含5篇文档，15个词汇的向量表示。而逆文档频率则衡量了一个词的普遍程度，如果一个词在许多文档中出现，则其逆文档频率将很低。可以看到，当一个词在越多的文档中出现时，其IDF值越小，即其重要性越低。这样我们就得到了一个稀疏矩阵，其中每一行表示一个文档，每一列表示一个词汇，值代表该词汇在文档中的TF-IDF值。‘学习机器学习是很有趣的。

参与评论您还未登录，请先登录后发表或查看评论

python实现TF-IDF算法提取关键词

01-11

通过python代码实现TF-IDF算法，并对文本提取关键词，可以自己添加词库以及停用词表。

python TF-IDF算法实现文本关键词提取

12-31

TF（Term Frequency）词频，在文章中出现次数最多的词，然而文章中出现次数较多的词并不一定就是关键词，比如常见的对文章本身并没有多大意义的停用词。所以我们需要一个重要性调整系数来衡量一个词是不是常见词。该权重为IDF（Inverse Document Frequency）逆文档频率，它的大小与一个词的常见程度成反比。在我们得到词频（TF）和逆文档频率（IDF）以后，将两个值相乘，即可得到一个词的TF-IDF值，某个词对文章的重要性越高，其TF-IDF值就越大，所以排在最前面的几个词就是文章的关键词。 TF-IDF算法的优点是简单快速，结果比较符合实际情况，但是单纯以“词频”衡量一个

python实现TF-IDF算法

weixin_43352637的博客

12-21

707

关于TF-IDF算法的具体公式可以参考我前面的博文，然后我在这里对TF-IDF算法做一个总结，代码中num_text就是整个语料库的大小，在我的示例中，它包含2个句子。有些单词在一个句子中出现频率很高，说明该单词具有专业性，而类似the，is，as这样的词汇在每个句子中基本都会出现，它的实际意义就很小，所以，TF-IDF算法就是为了降低这些无意义词的权重。示例中的第一个句子我用分别写了3个dog...

Python实现基于TF-IDF抽取文本数据关键词

Together_CZ的博客

03-24

3792

其实，今天忙到现在这个时间点，很困也比较累了，已经想去休息了，但是还是来写了点东西，说来也奇怪，都说日有所思才能夜有所梦，可我现在白天没有思什么，但是今天早上却做了一个很神奇的梦，一个很多人都是八竿子都打不着的梦，7:10的时候就是被这个梦吓醒了，现在也不想再去想为什么会有这样的想法了，正好今天做了点文本数据处理相关的工作，这里就把内容记录下来，也算是给自己的今天做一个时间点，可能未来...

python代码实现TF-IDF

weixin_40623018的博客

05-12

1261

python代码实现TF-IDF

TF-IDF关键词提取算法

m0_61133560的博客

03-25

2598

TF-IDF关键词提取算法

python关键词提取tf-idf_基于TF-IDF算法抽取文章关键词

weixin_39831493的博客

12-06

1477

0. 写在前面本文目的，利用TF-IDF算法抽取一篇文章中的关键词，关于TF-IDF，这里放一篇阮一峰老师科普好文。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。(百度百科)TF(Term Frequency)词频，某个词在文章中出现的次数或频率，如果某篇文章中的某个词出现多次，那这个词可能是比较重要的词，当然，停用词不包括在这里。IDF(inv...

基于TF-IDF的关键词提取的实现

qq_37977007的博客

01-17

2555

简单使用TF-IDF提取关键词

使用python实现TF-IDF

12-21

python编程语言预处理统计词频计算IT-IDF

Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法

08-10

利用Python实现中文文本关键词抽取，分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

用python实现tf-idf

haoshan4783的博客

11-29

1112

tf-idf的基本思想：词语的重要性与它在文件中出现的次数成正比，但同时会随着它在语料库中出现的频率成反比下降。 python中defaultdict用法：创建默认字典，当字典内的key不存在但被查找时，返回的不是keyError而是一个默认值，例如dict=defaultdict(fac),当fac是list时，如果key不存在，返回[] #coding=utf-8 from collectio...

python实现TF-IDF

weixin_35752233的博客

02-15

190

TF-IDF是一种常用的文本特征提取方法，可以用Python来实现。首先，计算每个单词在文档中的词频(TF)： def compute_tf(text): tf_text = {} for word in text.split(): tf_text[word] = tf_text.get(word, 0) + 1 return tf_text ...

Python 使用TF-IDF

weixin_43351935的博客

01-13

1222

总结了一些使用tf-idf 经验，对文本的向量化，之后可以使用k-means进行文本的分类，涉及到对停用词的去除，可向量的导出，并没有展示、

python tf_TF-IDF Python 实现

weixin_39674028的博客

12-20

280

这里保存一个TF-IDF 的python实现，供以后参考。TF-IDF介绍TF这里就是Term Frequency，表示一个词在一个文档中的出现频率，在一个文档中出现次数越高的词越重要。计算公式如下(i 为word，j 为文档)：IDFIDF表示一个词在越多的文档中出现越不重要，比如一些stop words，这里是总文档数除以词i所出现的文档数，计算公式如下TF-IDFtf_idf这里是tf和id...

分别利用TF-IDF关键词抽取算法和TextRank4zh两种方法取实现TextRank算法。

最新发布

10-18

<think>我们注意到用户的问题中有一个混淆点：用户要求“使用TF-IDF关键词抽取算法和TextRank4zh分别实现TextRank算法”。但是，TextRank4zh是专门用于实现TextRank算法的工具，而TF-IDF是另一种不同的算法。因此，用户可能想分别使用TF-IDF和TextRank4zh来实现关键词抽取，而不是用TF-IDF来实现TextRank算法。根据引用内容： - 引用[1]和[2]介绍了TF-IDF和TextRank两种不同的关键词提取技术。 - 引用[5]提到TextRank4zh是TextRank算法的一个实现，专门用于中文文本。因此，我们分解用户需求： 1. 使用TF-IDF算法实现关键词抽取。 2. 使用TextRank4zh（一个Python库）实现TextRank算法进行关键词抽取。我们将分别给出两种方法的实现示例。注意：由于用户要求的是实现关键词抽取，所以我们将分别展示两种方法的关键词抽取代码。步骤： 1. 准备环境：安装必要的库（如jieba，sklearn，textrank4zh等） 2. 数据预处理：中文文本需要分词。 3. 分别实现TF-IDF和TextRank4zh的关键词抽取。根据引用[4]，中文关键词提取需要先进行分词，因此我们会使用jieba进行分词。代码实现： - TF-IDF：我们可以使用scikit-learn库的TfidfVectorizer。 - TextRank4zh：我们可以使用textrank4zh库中的TextRank4Keyword。但是，请注意引用[2]中提到，测试语料较少时，Word2Vec词向量聚类效果不佳，而TF-IDF和TextRank效果较好。因此，我们使用这两种方法。由于引用[3]提到TF-IDF可以用于关键词提取，引用[5]提到TextRank4zh的实现，我们按照这些引用实现。下面分别给出两种方法的代码示例： </think>基于提供的引用资料，我将分别解释TF-IDF关键词抽取算法和TextRank4zh库实现TextRank算法的原理及实现方法： ### 一、TF-IDF关键词抽取算法 **原理**（引用[1][2][4]）： 1. **词频(TF)**：计算词语在当前文档出现的频率 $TF = \frac{\text{词在文档中出现次数}}{\text{文档总词数}}$ 2. **逆文档频率(IDF)**：衡量词语在语料库中的普遍性 $IDF = \log\left(\frac{\text{语料库文档总数}}{\text{包含该词的文档数} + 1}\right)$ 3. **TF-IDF值**：综合权重指标 $TF\text{-}IDF = TF \times IDF$ **Python实现**（引用[4]）： ```python from sklearn.feature_extraction.text import TfidfVectorizer import jieba # 预处理：中文分词 def chinese_tokenizer(text): return list(jieba.cut(text)) # 示例文档 corpus = [ "自然语言处理是人工智能的重要领域", "TF-IDF和TextRank是常用的关键词提取技术" ] # 创建TF-IDF模型 vectorizer = TfidfVectorizer(tokenizer=chinese_tokenizer) tfidf_matrix = vectorizer.fit_transform(corpus) # 获取关键词权重 feature_names = vectorizer.get_feature_names_out() for doc_idx, doc in enumerate(corpus): print(f"文档{doc_idx+1}关键词：") sorted_indices = tfidf_matrix[doc_idx].toarray().argsort()[0][::-1] for idx in sorted_indices[:3]: # 取权重最高的3个词 print(f"{feature_names[idx]}: {tfidf_matrix[doc_idx, idx]:.4f}") ``` --- ### 二、TextRank4zh实现TextRank算法 **原理**（引用[1][2][5]）： 1. **图模型构建**：将词语作为图中的节点 2. **边权计算**：基于词语共现关系建立边，权重由共现频次决定 3. **迭代排序**：使用类似PageRank的迭代公式更新节点权重 $WS(V_i) = (1 - d) + d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)} w_{jk}} WS(V_j)$ - $d$为阻尼系数（通常0.85） - $w_{ji}$表示节点$V_j$到$V_i$的边权重 **Python实现**（需先安装`textrank4zh`）： ```python from textrank4zh import TextRank4Keyword text = "自然语言处理中，关键词抽取是文本分析的核心任务之一" # 初始化TextRank tr4w = TextRank4Keyword() # 执行关键词提取 tr4w.analyze(text, lower=True, window=2) # window控制共现窗口大小 # 输出TOP3关键词 print("TextRank关键词：") for item in tr4w.get_keywords(3, word_min_len=2): print(f"{item.word}: {item.weight:.4f}") ``` --- ### 关键区别对比 | 特性 | TF-IDF | TextRank4zh | |--------------|-----------------------------------------|--------------------------------------| | **计算基础** | 词频统计 | 图结构迭代 | | **数据依赖** | 需要语料库统计IDF | 单文档即可工作 | | **短语提取** | 仅支持单词 | 支持多词短语抽取[^1] | | **适用场景** | 结构化文档/大规模语料[^1] | 无监督单文档处理[^2] | | **计算效率** | 高效（矩阵运算） | 较慢（迭代收敛） | > 实际应用中常将两者结合：用TextRank提取多词短语，用TF-IDF过滤高频普通词[^1]，这种混合方法在学术研究中被证明能提升抽取准确率[^2]。