基于语篇识别文本抽象类别的方法探究
1. 引言
在大多数文本分类问题中,关键词统计通常足以确定文本所属类别。关键词和 n - 元语法构成特征集,可用于确定文本或文档的主题,例如金融与法律、苹果与香蕉等主题的区分。然而,存在一些分类问题,不同类别可能共享相同的关键词,且这些关键词在不同类别中的分布也相似。在这种情况下,就需要考虑文档的特定写作风格、组织方式以及其他文本结构信息。
为了在这样的领域中进行文本分类,就需要引入包括修辞关系在内的语篇信息。我们关注的是将文本分类为元语言或对象语言。如果文本讲述如何做事或某事是如何完成的,我们将其归为对象语言;如果文本讲述如何撰写解释如何做事的文档,则将其归为元语言。元语言是用于讨论、描述或分析另一种语言或符号系统的语言或符号系统。在定理证明中,元语言是用于操作证明和编写策略的语言,与逻辑本身(“对象语言”)相对。在逻辑中,元语言是用于讨论另一种语言中语句真值的语言。
显然,仅使用关键词信息不足以区分元语言和对象语言的文本。使用解析树可以让我们了解元语言文本中使用的特定短语,但仍然不足以系统地探索与元语言相关的语言特征。除非能够分析语篇结构,包括指代、修辞关系和通过交际语言的交互场景,否则很难识别这些特征。此外,为了系统地学习与元语言相关的语篇特征,我们需要一种统一的方法来对段落级别的图结构进行分类。
目前,用于自动学习句法结构以进行分类的句法特征设计仍然是一门艺术。一种系统处理这些句法特征的方法是基于句法解析树构建的集合核。卷积树核(Collins 和 Duffy 2002)定义了一个由解析树的所有子树类型组成的特征空间,并将公共子树的数量作为两个解析树之间的句法相似度。它们在一系列自然语言处理(NLP)任务中得到了应用
超级会员免费看
订阅专栏 解锁全文
3304

被折叠的 条评论
为什么被折叠?



