基于远监督的关系抽取数据集
1. 远监督的概念
远监督(Distant Supervision)是一种弱监督学习方法,它通过自动标注大量未标注数据来生成训练样本。具体来说,远监督利用现有的知识库(如Freebase)和大规模文本语料库(如《纽约时报》),将知识库中的实体对与文本中的句子对齐,自动生成带有标签的训练数据。这种方法的优势在于能够快速生成大量的训练数据,但缺点是引入了标签噪声,因为并非所有包含特定实体对的句子都能正确反映它们之间的关系。
2. 关系抽取的任务背景
关系抽取的目标是从非结构化文本中自动识别实体之间的关系。例如,从新闻报道中提取出“公司A收购了公司B”这样的关系。传统的关系抽取方法通常依赖于手工标注的训练数据,这不仅耗时费力,而且难以扩展到大规模数据集。因此,远监督方法应运而生,成为解决这一问题的有效途径之一。
3. 数据集构建
3.1 Riedel数据集
Riedel等人通过将Freebase中的关系与《纽约时报》语料库对齐,创建了Riedel数据集。具体步骤如下:
- 实体对齐 :使用斯坦福命名实体识别器(NER)在《纽约时报》文章中标记实体,并将其与Freebase中的实体对齐。
- 句子对齐 :对于每一对对齐成功的实体,收集所有包含这对实体的句子。
- 标签生成 :根据Freebase中的关系,为每个句子生成相应的标签。如果一对实体在Freebase中有某种关系,则所有包含这对实体的句子都被标记为该
超级会员免费看
订阅专栏 解锁全文
4889

被折叠的 条评论
为什么被折叠?



