【NLP】TF-IDF算法原理及其实现

本文介绍了TF-IDF算法的基本概念、公式、应用场景(如搜索引擎、关键词提取等),并展示了如何使用Sklearn实现TF-IDF算法。文章指出TF-IDF的局限性,如忽视语义信息和处理一词多义问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

🌻个人主页:相洋同学
🥇学习在于行动、总结和坚持,共勉!

#学习笔记# 

目录

01 TF-IDF算法介绍

02 TF-IDF应用

03 Sklearn实现TF-IDF算法

04 使用TF-IDF算法提取关键词

05 TF-IDF算法的不足


TF-IDF算法非常容易理解,并且很容易实现,但其简单结构没有考虑词语的语义信息,无法处理一词多义与一义多词的情况。对于同类文本处理和一些生僻词筛选的效果不理想。

01 TF-IDF算法介绍

TF-IDF(term frequency-inverse doument frequency,词频-逆向文档频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

TF-IDF是一种统计方法,用以评估一字词对与一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比的增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语有很好的类别区分能力,适合用来分类。

(1)TF是词频(Term Frequency)

词频(TF)表示词条(关键字)在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文档总词数),防止它偏向长的文件

公式:

tf_{ij}=\frac{n_{i,j}}{\sum_{k}^{}n_{k,j}}

其中n_{i,j}是该词在文件d_{j}中出现的次数,分母则是文件d_{j}中所有词汇出现的次数总和;

(2)IDF是逆向文本频率(Inverse Document Frequency)

逆向文件频率(IDF):某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的上取对数得到。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值