任务描述
本关任务:认识TF-IDF 词向量特征提取的基本流程,完成对数据进行提取的程序。
相关知识
为了完成本关任务,你需要掌握:
TF-IDF 词向量特征提取
TF-IDF特征提取财经数据
TF-IDF 词向量特征提取
要分析清洗后的数据,就要把它们转换成特征。根据用途来说,文本特征可以使用很多种算法来转换。比如词袋模型(Bag-Of-Words),TF-IDF,word Embeddings 之类的方法。
在本文中,我们 TF-IDF 这个方法。
作为对词袋模型的改进,TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。它跟词袋模型的区别在于,主要是它还考虑了一个单词在整个语料库上的情况而不是单一文章里的情况。
TF-IDF方法会对常用的单词做惩罚,降低它们的权重。同时对于某些在整个数据集上出现较少,但是在部分文章中表现较好的词给予了较高的权重。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要的词语,同时保留影响整个文本的重要字词。
该方法流程如下:
下面,我们来学习一下 TF-IDF 具体操作的流程,输入一段文本后,使用 TfidfVectorizer生成词频矩阵,再计算 TF-IDF 值。
1、输入的文本