这篇文章采取最通俗易懂的方式为大家介绍一个经典的文本关键字提取算法-TF-IDF,它是基于词频的一种算法,是NLP入门级经典算法。
TF-IDF简介
TF-IDF用于文本关键字提取,就是TF(词频term frequency)*IDF(逆文本频率指数 inverse document frequence)
通俗来讲,一个词语在本文档中出现的频次越高,而在语料库中出现的频率越低,TF-IDF值越大
优点:语料库中出现频次高的词语,其IDF值接近于0,使得TF-IDF极低,可简单粗暴地过滤掉重复出现但意义不大的词,比如“应删除词(stopwords)”:的、地、得等。同时一些通用词汇的IDF值也会较低,比如“xxxx通知”的“通知”二字。