【Python机器学习】处理文本数据——用tf-idf缩放数据

zhangbin_237

于 2024-07-05 15:48:41 发布

阅读量568

点赞数 4

分类专栏： Python机器学习文章标签：机器学习 tf-idf 深度学习 python 算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39407597/article/details/140208953

版权

为了按照我们预计的特征信息量大小来缩放特征，而不是舍弃那些认为不重要的特征，最常见的一种做法就是使用词频-逆向文档频率（tf-idf）。这一方法对某个特定文档中经常出现的术语给与很高的权重，但是堆在语料库的许多文档中都经常出现的属于给与的权重却不高。如果一个单词在某个特定文档中经常出现，但在其他文档中却不经常出现，那么这个单词很可能是对文档内容的很好描述。

scikit-learn在两个类中实现了tf-idf方法：TfidfTransformer和TfidfVectorizer，前者接受CountVectorizer生成的稀疏矩阵并将其转换，后者接受文本数据并完成词袋特征提取与tf-idf变换。

tf-idf缩放方案有几种变体。单词w在文档d中的tf-idf分数在TfidfTransformer类和TfidfVectorizer类中都有体现，其计算公式如下所示：

tfidf(w,d)=tf log ((N+1)/( $N_{w}$ +1))+1

其中，N是训练集中文档数量， $N_{w}$ 是训练集中出现单词w的文档数量，tf（词频）是单词w在文档d（想要变换或编码的文档）中出现的次数。两个类在计算td-idf表示之后都还应用了L2范数。换句话说，它们将每个文档的表示缩放到欧几里得范数为1。利用这种缩放方法，文档长度不会改变向量化表示。

由于tf-idf实际上利用了训练数据的统计学属性，所以我们将使用管道，以确保网格搜索的结果有效

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。