文本分类与高维特征空间近似索引技术
1. 文本分类算法 - 特定领域分类器(DSC)
1.1 算法原理
特定领域分类器(DSC)是一种基于数据字典空间中相似度搜索的新型文本分类算法。该算法为每个文档类别找出特定领域的词汇,这些词汇在该类别中出现的频率相对高于其他类别之和。然后,为这些特定领域的词汇关联一个归一化的均匀测度。对于未标记的文档,分类器会根据内积,将与之关联测度最接近文档相对词频向量的类别分配给该文档。余弦相似度测度是ℓ2归一化的一种特殊情况。
1.2 算法优势
- 无需降维 :与大多数文本分类算法不同,DSC不需要预先进行单独的降维步骤,因为其相似度工作负载中的数据集与以往基于距离的算法(如k - NN分类器)完全不同。
- 隐式特征选择 :选择特定领域词汇的过程实际上是一种依赖于类别的隐式特征选择方法。对于每个类别,选择的是基于特定领域词汇的均匀测度,而不是质心,这种测度代表该类别而非其他类别,不仅能降低特征空间的维度,还依赖于类别标签。
1.3 性能评估
在Reuters 21578数据集的一个子集合上,将DSC与支持向量机(SVM)线性核和随机森林(RF)进行了比较,结果如下表所示:
| 分类器 | 准确率 | F1_acq | F1_crude | F1_earn | F1_grain | F1_interest | F1_money - fx | F1_ship | F1_trade |
| — | — | — | — | — | — | — | —