Bootstrapping——Semi-Supervised Learning of Semantic Relations

本文介绍了一种在形态丰富的泰米尔文中使用Bootstrapping方法进行语义关系提取的技术,特别是针对通用网络语言的46种语义关系。通过定义形态-结构模板和部分匹配策略,以及利用UNL本体进行语义约束,该方法能在没有大量标注数据的情况下学习和改进关系抽取模板。实验表明,这种方法在旅游和新闻领域表现出了领域独立性和良好的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Bootstrapping of Semantic Relation Extraction for a Morphologically Rich Language: Semi-Supervised Learning of Semantic Relations(2019年)

  1. Abstract
    这篇文章是使用Bootstrapping方法在形态丰富的泰米尔文种提取句子中不同成分之间的关系。本文使用基于规则的方法利用通用网络语言的本体来构建模版。

  2. Introduction
    语义角色只用8-10种关系来定义名词和动词之间的关系,通用网络语言会定义46种语义关系,因此本文我们也试着定义46种关系。
    基于规则的方法可移植性很低,很难用通用的方法处理所有类型的句子。机器学习的方法需要有标记的语料库,然而在很多语言中这种标记的语料库并不都可用。Bootstraping被用于提取本体关系的提取,特定领域的语义关系,还被用于依据特征标注识别语义角色。还有词性标注、命名实体识别和语义消歧。
    在这篇论文中,我们对泰米尔文的旅游和新闻领域的文本进行关系提取。我们以多形态的丰富的语言和语义约束作为特征,而不是基于语法结构来处理关系。这个方法的贡献在于能够提取通用关系;依据形态和语义的特征能够更好地捕捉形态的本质和排列自由的词序;逐步匹配更新迭代的分类方法。

  3. 什么是UNL(universal network language)
    通用网络语言是将不同种语言转化为可以被大家认识的通用表示形式,一种中间的语义有向图结构,包含通用词、属性、值。通用词是一个词汇、短语、或者句子。属性是情绪、时态、数量、性别等。通用网络语言包含46种关系,这些关系加上一些特征可以用来表示任何领域的自然语言句子。通用词加上语义约束就构成了词语的概念。
    当通用网络语言包含几个互联的从属的子图,通用网络语言表示就叫做超图。子图叫作超节点并服从从属关系和谓词。子图也可以用来定义实体间的边界。在这里用通用网络语言本体来代替通用词。通用网络语言的本体就是一个用有相互关联的通用词一层一层堆叠起来的树状结构,是关系的分类。通用网络语言的本体中的通用词划分为四类。
    1)副词:用来描述方式;
    2)属性:用来描述修饰语;
    3)名词:具体的东西、地点、事件;
    4)谓语:用来描述动词。
    本体结构举个例子,如下图:在这里插入图片描述
    如何实现通用网络语言转换的呢?
    基于规则的、基于统计的、基于框架的方法。

目前通用网络语言平台已经包含阿拉伯语、法语、俄罗斯语、西班牙语、意大利语、英语、中文、巴西语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

2674222

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值