文本分类学习指南
1. 引言
在自然语言处理中,检测模式是核心任务之一。例如,以 -ed 结尾的单词往往是过去式动词,频繁使用 “will” 则是新闻文本的特征。这些可观察到的模式,如单词结构和词频,与特定的语义方面(如时态和主题)相关。那么,我们如何知道从哪里开始寻找,以及哪些形式特征与哪些语义方面相关呢?本文将探讨以下几个问题:
1. 如何识别对语言数据分类有显著作用的特定特征?
2. 如何构建可用于自动执行语言处理任务的语言模型?
3. 从这些模型中我们可以了解到关于语言的哪些信息?
在探讨过程中,我们将学习一些重要的机器学习技术,包括决策树、朴素贝叶斯分类器和最大熵分类器。我们将重点关注这些技术的使用方法和时机,而不是其数学和统计基础。
2. 监督分类概述
分类是为给定输入选择正确类别标签的任务。在基本分类任务中,每个输入与其他输入相互独立,且标签集是预先定义的。以下是一些分类任务的示例:
- 判断一封电子邮件是否为垃圾邮件。
- 从固定的主题领域列表(如 “体育”、“科技” 和 “政治”)中确定新闻文章的主题。
- 确定 “bank” 这个词在特定语境中是指河岸、金融机构、倾斜动作还是在金融机构存款的行为。
基本分类任务有一些有趣的变体,例如:
- 多类别分类:每个实例可以分配多个标签。
- 开放类别分类:标签集不是预先定义的。
- 序列分类:对一组输入进行联合分类。
如果分类器是基于包含每个输入正确标签的训练语料库构建的,则称为监督分类器。监督分类的框架如下:
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



