基于相似性搜索的文本分类:高效新颖算法解析
1. 引言
在当今信息爆炸的时代,文本数量呈惊人的速度增长。利用机器学习技术对这些文本进行快速且少人工干预的分类,已成为数据挖掘领域的重要问题。目前,在监督学习领域,已有许多研究致力于寻找准确的算法,将数据集中的文档分类到合适的类别中。
最常用的文本分类模型是向量空间模型(VSM)。在此模型下,会构建一个包含数据集中所有文档唯一单词的数据字典 T。文档被表示为实值向量,向量的维度等于字典的大小。对于字典中的每个单词 t,向量的第 t 个坐标是该单词在给定文档中的相对频率。当部分文档的实际类别标签已知并用于训练时,许多著名的监督机器学习分类器,如支持向量机(SVM)、k - 近邻(k - NN)和随机森林(RF)等,都可用于文档分类。
然而,现有的基于距离的文本分类学习规则通常基于整个特征空间,且维度缩减步骤是独立进行的。为填补这一空白,本文提出了一种名为特定领域分类器(Domain - Specific Classifier)的新型监督学习算法。该算法通过在训练中发现每个文档类别(或领域)的特定单词,并基于这些特定单词的词频分布空间进行相似性搜索来进行分类。
2. 相关工作
2.1 向量空间模型
向量空间模型(VSM)是文本分类中最常见的文档表示模型。通常,会对文档进行标准预处理,将所有字母转换为小写,并去除所有停用词(如冠词和介词)。有时还会应用词干提取算法(如广泛使用的 Porter 词干提取器)来去除单词的词尾。
在 VSM 中,首先构建包含数据集中至少一个文档中出现的所有唯一单词的数据字典。有时,n - 元组(单词短语)也会包含在字典中,但这