这篇文章采取最通俗易懂的方式为大家介绍一个经典的文本关键字提取算法-TF-IDF,它是基于词频的一种算法,是NLP入门级经典算法。
TF-IDF简介
TF-IDF用于文本关键字提取,就是TF(词频term frequency)*IDF(逆文本频率指数 inverse document frequence)
通俗来讲,一个词语在本文档中出现的频次越高,而在语料库中出现的频率越低,TF-IDF值越大
优点:语料库中出现频次高的词语,其IDF值接近于0,使得TF-IDF极低,可简单粗暴地过滤掉重复出现但意义不大的词,比如“应删除词(stopwords)”:的、地、得等。同时一些通用词汇的IDF值也会较低,比如“xxxx通知”的“通知”二字。

TF-IDF是一种经典的文本分析算法,用于关键字提取。它基于词频和逆文档频率,词语在文档中出现频率高且在语料库中罕见,其TF-IDF值大。虽然会过滤掉常见词汇,但在某些文本分类任务中可能表现不佳。文章提供了一个PyTorch实现的示例。
最低0.47元/天 解锁文章
2754

被折叠的 条评论
为什么被折叠?



