文本分类中的分割与聚合方法探索
1. 引言
在工业人工智能系统的背景下,文本分析变得至关重要,其中文档分类是一个重要应用。然而,不同文档的长度差异给分类算法带来了挑战。为解决这一问题,可采用分割文本的方法,将文本分成等长的片段,分类算法会为每个片段和每个类别给出一个概率。但要对整个文档进行分类,还需要一种聚合方法。
本文聚焦于基于词频的方法,使用词频作为标准分类器的特征,尤其关注词频 - 逆文档频率(tf - idf)方法。该方法考虑了一个词在文本中的频率相对于其在文本集合中的频率。应用示例基于德国市政当局的数字邮件自动路由系统,这些市政当局最多分为 45 个部门,数据集中包含 31 个部门。
输入数据中不同的文本长度会影响 tf - idf 生成的向量的范数,标准分类器可能无法平等对待仅范数不同的相似输入,从而导致分类差异。为应对这一挑战,可将数据分割成等长的片段,使分类算法能在可比的数据上进行训练。分割后,需要定义不同的聚合方法,将片段的预测结果组合起来,以得到原始整个文档的预测结果。
2. 聚合方法
为处理不同长度的文档,我们将文档分割成相似长度的片段,并对每个片段进行分类,分类算法会为每个片段生成概率向量。为了从片段层面的信息推导出整个文档的类别,我们定义了不同的聚合方法。
2.1 受限聚合算法
- 最大预测类别(Max. Predicted Class) :
- 统计预测为类别 j 的片段数量,选择数量最多的类别作为文档的预测类别。公式为 (j^{*}= arg max_{j∈{1,…,n}}(|K_{j}|
超级会员免费看
订阅专栏 解锁全文
1781

被折叠的 条评论
为什么被折叠?



