文本分类:原理、方法与评估
1. 引言
在许多实际场景中,我们常常需要按照预定义的类别对文本对象进行分组。例如,新闻机构可能希望将新闻文章分类到技术、体育、政治或娱乐等主题类别中。虽然文本聚类技术可以基于相似特征对文档进行分组,但这些聚类结果不一定与预定义的类别相对应。因此,文本分类技术应运而生,它具有广泛的应用场景。
文本分类的任务是,给定一组预定义的类别(可能形成层次结构)以及通常包含已知类别标签的训练集,为(未见过的)文本对象分配一个或多个类别。从宏观层面来看,文本分类通常有助于实现两个应用目标:
- 丰富文本表示 :通过文本分类,我们能够以多种层次(关键词 + 类别)来表示文本,这也被称为文本标注。例如,为文本分配的语义类别可直接用于垃圾邮件检测等应用。此外,语义类别还能以更有意义的方式促进文本内容的聚合,如情感分类可以聚合关于产品的所有正面/负面意见,从而给出更有意义的总体评估。
- 推断与文本数据相关实体的属性 :只要实体能以某种方式与文本数据相关联,就有可能利用文本数据对相关实体进行分类。例如,我们可以根据一个人所写的英文文本数据来预测其是否为非英语母语者,或者根据政治演讲预测政党归属。在这种情况下,文本分类的任务难度更大,因为类别与文本内容之间的“差距”较大,实际上应称为基于文本的预测。
这两个目标可以根据类别性质的不同进行区分。为了丰富文本表示,类别往往是描述文本对象的“内部”类别(如主题类别、情感类别);为了推断与文本数据相关实体的属性,类别往往是描述与文本对象相关实体的“外部”类别(如作者归属或通过间接链接与文本数据相关的其他有意义类别)。不过,从计算角度来看,这
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



