头歌 SVM支持向量机分类 词向量的转化

任务描述
本关任务:认识TF-IDF 词向量特征提取的基本流程,完成对数据进行提取的程序。

相关知识
为了完成本关任务,你需要掌握:

TF-IDF 词向量特征提取
TF-IDF特征提取财经数据
TF-IDF 词向量特征提取
要分析清洗后的数据,就要把它们转换成特征。根据用途来说,文本特征可以使用很多种算法来转换。比如词袋模型(Bag-Of-Words),TF-IDF,word Embeddings 之类的方法。

在本文中,我们 TF-IDF 这个方法。

作为对词袋模型的改进,TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。它跟词袋模型的区别在于,主要是它还考虑了一个单词在整个语料库上的情况而不是单一文章里的情况。

TF-IDF方法会对常用的单词做惩罚,降低它们的权重。同时对于某些在整个数据集上出现较少,但是在部分文章中表现较好的词给予了较高的权重。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要的词语,同时保留影响整个文本的重要字词。

该方法流程如下:

下面,我们来学习一下 TF-IDF 具体操作的流程,输入一段文本后,使用 TfidfVectorizer生成词频矩阵,再计算 TF-IDF 值。

1、输入的文本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值