Bootstrapping of Semantic Relation Extraction for a Morphologically Rich Language: Semi-Supervised Learning of Semantic Relations(2019年)
-
Abstract
这篇文章是使用Bootstrapping方法在形态丰富的泰米尔文种提取句子中不同成分之间的关系。本文使用基于规则的方法利用通用网络语言的本体来构建模版。 -
Introduction
语义角色只用8-10种关系来定义名词和动词之间的关系,通用网络语言会定义46种语义关系,因此本文我们也试着定义46种关系。
基于规则的方法可移植性很低,很难用通用的方法处理所有类型的句子。机器学习的方法需要有标记的语料库,然而在很多语言中这种标记的语料库并不都可用。Bootstraping被用于提取本体关系的提取,特定领域的语义关系,还被用于依据特征标注识别语义角色。还有词性标注、命名实体识别和语义消歧。
在这篇论文中,我们对泰米尔文的旅游和新闻领域的文本进行关系提取。我们以多形态的丰富的语言和语义约束作为特征,而不是基于语法结构来处理关系。这个方法的贡献在于能够提取通用关系;依据形态和语义的特征能够更好地捕捉形态的本质和排列自由的词序;逐步匹配更新迭代的分类方法。 -
什么是UNL(universal network language)
通用网络语言是将不同种语言转化为可以被大家认识的通用表示形式,一种中间的语义有向图结构,包含通用词、属性、值。通用词是一个词汇、短语、或者句子。属性是情绪、时态、数量、性别等。通用网络语言包含46种关系,这些关系加上一些特征可以用来表示任何领域的自然语言句子。通用词加上语义约束就构成了词语的概念。
当通用网络语言包含几个互联的从属的子图,通用网络语言表示就叫做超图。子图叫作超节点并服从从属关系和谓词。子图也可以用来定义实体间的边界。在这里用通用网络语言本体来代替通用词。通用网络语言的本体就是一个用有相互关联的通用词一层一层堆叠起来的树状结构,是关系的分类。通用网络语言的本体中的通用词划分为四类。
1)副词:用来描述方式;
2)属性:用来描述修饰语;
3)名词:具体的东西、地点、事件;
4)谓语:用来描述动词。
本体结构举个例子,如下图:
如何实现通用网络语言转换的呢?
基于规则的、基于统计的、基于框架的方法。
目前通用网络语言平台已经包含阿拉伯语、法语、俄罗斯语、西班牙语、意大利语、英语、中文、巴西语