文本分类学习指南
1. 自然语言处理中的模式检测与分类目标
在自然语言处理里,检测模式是核心内容。像以 -ed 结尾的单词往往是过去式动词,频繁使用 “will” 则是新闻文本的特征。这些可观察到的模式,如单词结构和频率,与特定的语义方面(如时态和主题)相关。但我们该从何处着手,将形式的哪些方面与意义的哪些方面关联起来呢?
我们的目标是解答以下问题:
1. 如何识别对语言数据分类有显著作用的特定特征?
2. 怎样构建可自动执行语言处理任务的语言模型?
3. 从这些模型中我们能了解到关于语言的哪些信息?
接下来会学习一些重要的机器学习技术,包括决策树、朴素贝叶斯分类器和最大熵分类器。我们将重点关注如何以及何时使用它们,而不过多探讨其数学和统计基础。
2. 监督分类概述
分类就是为给定输入选择正确的类别标签。在基本分类任务中,每个输入与其他输入相互独立,且标签集是预先定义好的。以下是一些分类任务的例子:
- 判断一封邮件是否为垃圾邮件。
- 从固定的主题领域列表(如“体育”“科技”“政治”)中确定一篇新闻文章的主题。
- 判断 “bank” 这个词在特定语境中是指河岸、金融机构、倾斜动作还是在金融机构存钱的行为。
基本分类任务有多种有趣的变体,例如:
- 多类别分类:每个实例可被分配多个标签。
- 开放类别分类:标签集未预先定义。
- 序列分类:对一组输入进行联合分类。
如果分类器是基于包含每个输入正确标签的训练语料库构建的,就称为监督分类器。监督分类的框架如下:
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



