python文本分类_教你用python做文本分类-优快云博客

本文介绍如何使用Python的scikit-learn库进行文本分类，讲解了从数据获取、分词去停用词、向量空间模型、降维处理到SVM模型训练的全过程，并探讨了提升分类效果的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是文本分类

一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个。通俗点说，就是拿一篇文章，问计算机这文章要说的究竟是体育，经济还是教育。文本分类是一个监督学习的过程，常见的应用就是新闻分类，情感分析等等。其中涉及到机器学习，数据挖掘等领域的许多关键技术：分词，特征抽取，特征选择，降维，交叉验证，模型调参，模型评价等等，掌握了这个有助于加深对机器学习的的理解。这次我们用python的scikit-learn模块实现文本分类。

文本分类的过程

首先是获取数据集，为了方便，我们直接使用scikit-learn的datasets模块自带的20类新闻数据集，并且取了其中四个类别的新闻

从datasets获取到一般都是一个Bunch对象，Bunch是一种类似于python字典的格式，我们拿到任何一个数据集之后都可以探索数据集，输出Bunch对象的键keys看看有什么，看看数据集的描述，数据的内容等等。

接下来就要进行分词和去停用词，分词就是将句子切分成单词，这些词语就是后面用来训练模型的特征。切分成单词之后就要去除停用词，停用词一些无意义的词，比如‘the’，‘a’这些词对于文本分类没有帮助，网上可以找到中英文的停用词表来帮助去掉停用词。由于英文句子中的单词之间有空格，所以英文分词十分简单。如果处理的是中文语料，jieba分词可以帮助我们方便地进行中文分词。除了分词之外，中英文文本分类处理基本上是一样的。

计算机怎么读懂文本呢，接下来进就需要行文本表示，我们常用向量空间模型(VSM)。简单的解释VSM模型，例如，经过分词后得到文档1=，标记为1类，文档2=，标记为0类。我们得到所有文档共享的一个文档词典，那么对应的VSM就可以表示为文档1表示为[1,2,1,1,0]，文档2表示为[2,1,1,0,1]其中权重是每个词出现的次数。权重也可以是bool值，出现为1，不出现为0，不考虑出现次数；也可以用tf-idf值表示，tf-idf简单来说就是存在一个词语A，它在每篇文档中出现的次数越多，并且在越少的文档中出现，那么tf-idf值就越大。VSM模型表示方法的优点就是简单，便于理解，缺点是丢失了词与词之间的前后顺序信息。

这里用的是scikit-learn中的f