文本分类学习
1. 引言
在自然语言处理中,检测模式是核心内容。像以 -ed 结尾的单词往往是过去式动词,频繁使用 “will” 则可能是新闻文本。这些可观察到的模式(如单词结构和频率)与特定的语义方面(如时态和主题)相关。但我们如何知道从哪里开始寻找,以及哪些形式方面与哪些意义方面相关联呢?
主要探讨以下几个问题:
1. 如何识别对语言数据分类有显著作用的特定特征?
2. 如何构建可自动执行语言处理任务的语言模型?
3. 从这些模型中我们能了解到关于语言的哪些信息?
接下来会学习一些重要的机器学习技术,包括决策树、朴素贝叶斯分类器和最大熵分类器。这里会重点关注如何以及何时使用这些技术,而不过多涉及它们的数学和统计基础。
2. 监督分类
分类是为给定输入选择正确类别标签的任务。在基本分类任务中,每个输入独立于其他输入进行考虑,并且类别标签集是预先定义好的。以下是一些分类任务的示例:
- 判断一封电子邮件是否为垃圾邮件。
- 从固定的主题领域列表(如“体育”、“科技”和“政治”)中确定一篇新闻文章的主题。
- 判断单词 “bank” 在特定语境中是指河岸、金融机构、倾斜动作还是在金融机构存款的行为。
基本分类任务有一些有趣的变体:
- 多类别分类:每个实例可以被分配多个标签。
- 开放类别分类:标签集不是预先定义的。
- 序列分类:对一系列输入进行联合分类。
如果一个分类器是基于包含每个输入正确标签的训练语料库构建的,那么它被称为监督分类器。监督分类的框架如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



