sklearn--CountVectorizer中的min_df和max_df

最新推荐文章于 2025-08-12 18:39:43 发布

转载最新推荐文章于 2025-08-12 18:39:43 发布 · 3.3k 阅读

·

7

·

CC 4.0 BY-SA版权

原文链接：https://www.icode9.com/content-1-469285.html

sklearn 专栏收录该内容

2 篇文章

订阅专栏

TF-IDF是一种在信息检索和文本挖掘中常用的统计方法，用于评估一个词对于文档集或语料库中的一个文档的重要程度。max_df参数用于设定忽略频繁出现的术语，比如设置为0.50则会忽略出现在一半以上文档中的词。min_df参数则用来排除不常见的词，如设为0.01则忽略少于1%文档中的词。这两个参数有助于过滤掉常见词汇和噪声，提高文本分析的准确性。

max_df用于删除过于频繁出现的术语,也称为“语料库特定的停用词”.例如：

max_df = 0.50表示“忽略出现在50％以上文档中的术语”.
max_df = 25表示“忽略超过25个文档中出现的术语”.

默认的max_df是1.0,这意味着“忽略出现在100％以上文档中的术语”.因此,默认设置不会忽略任何术语.

min_df用于删除不经常出现的术语.例如：

min_df = 0.01表示“忽略出现在少于1％的文档中的术语”.
min_df = 5表示“忽略少于5个文档中出现的术语”.

默认min_df为1,表示“忽略少于1个文档中出现的术语”.因此,默认设置不会忽略任何术语.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。