Bootstrapping——Semi-Supervised Learning of Semantic Relations

2674222

已于 2023-07-17 15:07:04 修改

阅读量242

点赞数

文章标签：人工智能

于 2023-07-04 14:04:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42074485/article/details/131428922

版权

本文介绍了一种在形态丰富的泰米尔文中使用Bootstrapping方法进行语义关系提取的技术，特别是针对通用网络语言的46种语义关系。通过定义形态-结构模板和部分匹配策略，以及利用UNL本体进行语义约束，该方法能在没有大量标注数据的情况下学习和改进关系抽取模板。实验表明，这种方法在旅游和新闻领域表现出了领域独立性和良好的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bootstrapping of Semantic Relation Extraction for a Morphologically Rich Language: Semi-Supervised Learning of Semantic Relations（2019年）

Abstract
这篇文章是使用Bootstrapping方法在形态丰富的泰米尔文种提取句子中不同成分之间的关系。本文使用基于规则的方法利用通用网络语言的本体来构建模版。
Introduction
语义角色只用8-10种关系来定义名词和动词之间的关系，通用网络语言会定义46种语义关系，因此本文我们也试着定义46种关系。
基于规则的方法可移植性很低，很难用通用的方法处理所有类型的句子。机器学习的方法需要有标记的语料库，然而在很多语言中这种标记的语料库并不都可用。Bootstraping被用于提取本体关系的提取，特定领域的语义关系，还被用于依据特征标注识别语义角色。还有词性标注、命名实体识别和语义消歧。
在这篇论文中，我们对泰米尔文的旅游和新闻领域的文本进行关系提取。我们以多形态的丰富的语言和语义约束作为特征，而不是基于语法结构来处理关系。这个方法的贡献在于能够提取通用关系；依据形态和语义的特征能够更好地捕捉形态的本质和排列自由的词序；逐步匹配更新迭代的分类方法。
什么是UNL（universal network language）
通用网络语言是将不同种语言转化为可以被大家认识的通用表示形式，一种中间的语义有向图结构，包含通用词、属性、值。通用词是一个词汇、短语、或者句子。属性是情绪、时态、数量、性别等。通用网络语言包含46种关系，这些关系加上一些特征可以用来表示任何领域的自然语言句子。通用词加上语义约束就构成了词语的概念。
当通用网络语言包含几个互联的从属的子图，通用网络语言表示就叫做超图。子图叫作超节点并服从从属关系和谓词。子图也可以用来定义实体间的边界。在这里用通用网络语言本体来代替通用词。通用网络语言的本体就是一个用有相互关联的通用词一层一层堆叠起来的树状结构，是关系的分类。通用网络语言的本体中的通用词划分为四类。
1）副词：用来描述方式；
2）属性：用来描述修饰语；
3）名词：具体的东西、地点、事件；
4）谓语：用来描述动词。
本体结构举个例子，如下图：
如何实现通用网络语言转换的呢？
基于规则的、基于统计的、基于框架的方法。

目前通用网络语言平台已经包含阿拉伯语、法语、俄罗斯语、西班牙语、意大利语、英语、中文、巴西语

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

2674222 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。