文本分类中的分割与聚合研究
在文本分类领域,处理不同长度的文档是一个重要挑战。为了解决这个问题,我们可以将文档分割成相似长度的文本段,对每个文本段进行分类,然后将这些预测结果聚合为文档的最终分类。接下来,我们将详细探讨这个过程中的各个环节。
1. 预处理流程
首先,随着数据池的增大,我们会计算逆文档频率(idf),并由此得出tf - idf分数。预处理流程有四个变体,主要区别在于是否包含某些特定步骤。
- 步骤一:维度降低 :通过用奇异值分解的简化版本替换tf - idf矩阵,只计算最大的800个特征值,将维度降低到800。
- 步骤二:向量缩放 :对所有段得到的向量进行缩放,使其具有相同的上L² - 范数。
四个预处理流程的具体差异如下:
- 流程一 :包含维度降低和向量缩放步骤。
- 流程二 :跳过了上L² - 归一化步骤。
- 流程三 :不包含截断奇异值分解步骤。
- 流程四 :既不包含截断奇异值分解,也不包含上L² - 归一化步骤,分类器算法直接在整个tf - idf向量上进行训练和应用。
2. 分类器选择
我们考虑了三种不同的分类器:
- 逻辑回归 :常用于二分类和多分类问题,具有较好的解释性。
- 随机森林 :基于决策树的集成学习方法,能处理高维数
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



