分词，文本分类jieba，TF-IDF，BERT

inf-inf

已于 2022-10-08 20:09:13 修改

阅读量374

点赞数

分类专栏： python Notebook 文章标签：分类 python nlp

于 2022-10-08 20:07:34 首次发布

Notebook 同时被 2 个专栏收录

49 篇文章

订阅专栏

32 篇文章

订阅专栏

本文详细介绍了TF-IDF算法原理及其在Python中的实现方法，通过使用sklearn库中的CountVectorizer、TfidfTransformer和TfidfVectorizer等工具，展示了从文本预处理到TF-IDF矩阵计算的全过程，并进一步探讨了这些技术在文本挖掘、关键词提取、文档主题分析和文本聚类分类等领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python中CountVectorizer()、TfidfTransformer() 和 TfidfVectorizer()的关系

TfidfVectorizer().fit_transform(corpus) = TfidfTransformer().fit_transform(CountVectorizer().fit_transform(corpus))

TF-IDF算法介绍及实现

sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer

鬼吹灯文本挖掘1：jieba分词和CountVectorizer向量化
鬼吹灯文本挖掘2：wordcloud 词云展示
鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵
鬼吹灯文本挖掘4：LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel
鬼吹灯文本挖掘5：sklearn实现文本聚类和文本分类

jieba库(jieba库的介绍以及分词原理,jieba的三种模式和常用函数,利用Jieba模块进行中文词语的统计)

朴素贝叶斯分类-实战篇-如何进行文本分类

朴素贝叶斯应用：垃圾邮件分类

NLP之文本分类：「Tf-Idf、Word2Vec和BERT」三种模型比较

Bert中文文本多分类与传统BOW+tfidf+LR中文文本多分类对比

Bert文本分类实践（二）：魔改Bert，融合TextCNN的新思路

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。