机器学习在自然语言处理中的应用
1. 引言
机器学习广义上是对通过经验提升特定任务表现的计算系统的研究。有时,它特指以声明性、符号形式表示所学知识的方法,与更侧重于数值的统计或神经网络训练方法有所区别。本文将重点回顾监督学习方法,这些方法以可解释的决策树、逻辑规则和存储实例的形式表示所学知识。监督学习从人类专家明确标注了类别标签或结构信息(如解析树)的数据中获取知识。
决策树是一种分类函数,以树的形式呈现,节点为特征测试,分支为特征值,叶子为类别标签。规则则是命题或谓词逻辑中的蕴含关系,用于从数据中进行演绎推理。此外,基于实例(基于案例、基于记忆)的方法只是简单地记住过去的训练实例,并根据新案例与特定过去示例的相似性做出决策。
机器学习方法有望自动从标注或未标注的语言语料库中获取知识,这对于自然语言处理至关重要。与统计方法相比,符号学习方法的一个潜在优势是,所获取的知识以人类开发者更易解释的形式表示,并且更类似于手动开发系统中使用的表示形式。这些可解释的知识有助于深入了解语言现象,通过人工编辑改进所学知识,并更易于与手动开发的系统集成。
2. 分类的监督学习
大多数机器学习方法都涉及对由一组特征描述的示例进行分类的任务。监督学习方法在一组特定示例上进行训练,这些示例由人类专家标注了正确的类别,并归纳出一个通用函数,用于对未来未标注的示例进行分类。
2.1 示例问题
以确定英语名词 “interest” 的语义类别为例,该名词有以下三种语义类别:
- c1:愿意给予关注
- c2:优势、进步或青睐
- c3:使用资金所支付的利息
可以使用以下特征
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



