基于图互增强的自举法学习语义词典
1. 相关工作
在利用少量标注数据和大量未标注数据学习语义词典方面,已经提出了几种弱监督分类算法,以下是一些常见算法的介绍:
- 协同训练(Co-training) :交替使用数据的两个正交视图进行学习,从而利用未标注数据,实现从少量标注训练数据通过大量未标注数据进行自举学习。
- 元自举法(Meta-bootstrapping) :采用两层自举结构来学习提取模式字典和特定领域的语义词典。
- Snowball :从大量纯文本文档中提取关系的系统,使用标准的自举结构,并引入了评估提取过程中每个步骤生成的模式和元组质量的新方法。
- KnowItAll :利用一组与领域无关的提取模式生成候选事实,然后通过点互信息(PMI)统计评估候选事实。
- Hassan等人的方法 :一种无监督方法,不依赖种子或示例,而是依靠大数据集中的冗余和基于图的互增强来获取提取模式。
与本文方法最相关的是Basilisk算法,它也是一种自举算法。元自举法依赖单个提取模式进行单方面决策,而Basilisk则从大量提取模式中收集集体证据。本文提出的GMR - Bootstrapping与Basilisk有相同的思想和结构,但也存在一些差异:
- 引入图互增强(Graph Mutual Reinforcement)对候选词和提取模式进行加权。
- 通过添加模式的不确定性来增强GMR - Bootstrapping,以同时学习多个类别。
超级会员免费看
订阅专栏 解锁全文

20

被折叠的 条评论
为什么被折叠?



