语义关系定向识别与半监督实体关系提取研究
1. 语义关系定向识别算法(LSJ)
LSJ算法旨在识别术语对之间语义关系的方向性。通过实验验证发现,LSJ在种子集二次扩展得到的测试集上也能达到100%的识别率,这表明该算法在二次扩展中的应用是可行的。
不过,该算法存在一个问题,即算法计算结果的准确性与种子集的选择直接相关。如果种子集选择不合适,可能会导致对某些单词方向性的判断错误。为解决此问题,应根据专家建议扩展种子集规模,使种子集达到更好的覆盖率,以指导算法对关系方向性的准确判断。
以下是种子集二次扩展词集的测试集示例:
| 关系类型 | 种子词 |
| — | — |
| 正向关系 | plus, arise, rise, benefit |
| 反向关系 | strike down, fall, depress, lour, subside |
| 无向关系 | imply, shock, suffer |
2. 半监督实体关系提取方法概述
关系提取任务最早于1998年的最后一次消息理解会议上提出。目前,关系提取方法主要基于规则和机器学习。机器学习方法又可根据是否需要手动标注训练语料分为监督式、半监督式和无监督式。
规则方法需要领域专家构建大规模知识库,监督式方法需要大量标注语料,都需要耗费大量人力和物力。因此,半监督学习方法受到越来越多研究者的关注。
3. 相关工作
- Bootstrapping方法 :一种广泛使用的半监督学习方法,有时也称为自训练。1998年Brin提出
超级会员免费看
订阅专栏 解锁全文
872

被折叠的 条评论
为什么被折叠?



