自然语言处理——文本分类概述

最新推荐文章于 2025-10-11 10:06:25 发布

原创

最新推荐文章于 2025-10-11 10:06:25 发布 · 2.8w 阅读

154 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #文本分类 #自然语言处理

文本分类是自动将文档映射到预定义类别的过程，涉及数据采集、文本预处理、特征选择和分类模型。它在信息检索和机器学习中具有重要意义。分类流程包括爬虫技术、页面处理、文本预处理、文本表示、特征选择和模型训练。预处理步骤如分词、去停用词，向量空间模型是常见的文本表示方法。特征选择有助于降低问题规模并提高分类性能。

内容提要

分类概述
分类流程
数据采集
- 爬虫技术
- 页面处理
文本预处理
文本表示
特征选择
分类模型

分类概述

分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类，是不可能的。因此，基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类，聚类不是将数据匹配到预先定义的标签集合，而是通过与其他数据相关的隐含结构自动的聚集为一个或多个类别。文本分类是数据挖掘和机器学习领域的一个重要研究方向。
分类是信息检索领域多年来一直研究的课题，一方面以搜索的应用为目的来提高有效性和某些情况下的效率；另一方面，分类也是经典的机器学习技术。在机器学习领域，分类是在有标注的预定义类别体系下进行，因此属于有监督的学习问题；相反聚类则是一种无监督的学习问题。
文本分类(Text Classification或Text Categorization，TC)，或者称为自动文本分类(Automatic Text Categorization)，是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本分类另外也属于自然语言处理领域。本文中文本(Text)和文档(Document)不加区分，具有相同的意义。
F. Sebastiani以如下数学模型描述文本分类任务：文本分类的任务可以理解为获得这样的一个函数Φ：D×C→{T，F}，其中，D={d₁,d₂,…,d_|D|} 表示需要进行分类的文档，C={c₁,c₂,…,c_|C|} 表示预定义的分类体系下的类别集合，T值表示对于(d_j,c_i)来说，文档d_j属于类c_i，而F值表示对于(d_j,c_i)而言文档d_j不属于类c_i 。也就是说，文本分类的目标就是要寻找一个有价值的函数映射，准确的完成D×C到T/F值的函数映射，这个映射过程本质上讲就是所谓的分类器。
文本分类的形式化定义如下：
设i = 1，…，M为文档集合里面的M篇文档， j = 1，…，N为预先定义的N个类别主题，可以给出这样一个分类结果矩阵C=(c_ij)；其中，矩阵中某一元素c_ij表示第i篇文档与第j个类别的关系。也就是说，文本自动分类可以归结为确定上面矩阵C的每一个元素的值的过程；使用一个布尔量1或0，如果c_ij 的值为1，则表示文档i属于第j类，如果值为0，则文档i不能被分入类别j，即：