基于对齐的半监督多参数关系提取方法
在信息提取和关系提取领域,传统的二元关系提取方法在某些情况下可能无法满足需求。本文将介绍一种基于对齐的半监督多参数关系提取方法,旨在解决现有方法的局限性,提高关系提取的准确性和效率。
1. 基于对齐的信息提取
1.1 方法概述
我们对基于对齐的命名实体识别方法进行了改进,用于提取包含两个或更多相关参数的元组,并将其应用于 n 元关系提取任务。具体来说,我们将原始句子与包含目标参数标签的上下文模式进行对齐,然后从最佳对齐结果中提取与上下文模式中参数标签对齐的部分,将这些提取的参数合并到一个元组中,作为 n 元关系的候选。
1.2 对齐算法
为了增强每个上下文模式的覆盖范围,我们采用了基于 Smith - Waterman 算法的对齐方案。该算法是一种广泛使用的生物序列对齐算法,通过将单词或词素作为对齐单位,应用于句子对齐任务。
对齐算法通过计算对齐矩阵 M 中每个单词对的得分来执行。矩阵的每一行对应上下文模式中的一个单词,每一列对应原始句子中的一个单词,行和列的交叉点表示原始句子中的单词与上下文模式中的单词对齐的得分。
算法步骤:
- 将矩阵 M 中每个位置的初始值设为 0。
-
从矩阵 M 的左上角开始,按照右下方向为矩阵中的每个位置找到最大得分 Mi,j。最大得分 Mi,j 的定义如下:
[
M_{i,j} = \max
\begin{pmatrix}
M_{i - 1,j - 1} + sim_{i - 1,j - 1}\
M_{i - 1,j} + gp\
M_{i,j - 1} + gp\
0
\end{pmatrix}
]
其中,simi,j 是上下文模式中第 i 个单词与原始句子中第 j 个单词的相似度值,gp 是预定义的间隙惩罚。
在一个示例中,相似度函数定义为:
[
sim_{i,j} =
\begin{cases}
1, & \text{如果 } PTN_i \text{ 和 } RAW_j \text{ 相同或 } PTN_i \text{ 是参数标签}\
0, & \text{否则}
\end{cases}
]
其中,PTNi 是上下文模式中第 i 个单词,RAWj 是原始句子中第 j 个单词。在这个示例中,间隙惩罚 gp 的值被忽略。
1.3 回溯任务
矩阵计算完成后,我们从对齐矩阵中得分最高的位置开始回溯,以找到具有最大得分的最佳对齐,并从对齐结果中提取相关参数。对于每个当前位置 [i, j],下一个位置根据以下策略依次确定:
1. 如果 Mi,j = Mi,j - 1 + gp,则下一个位置是 [i, j - 1]。
2. 如果 Mi,j = Mi - 1,j - 1 + simi,j,则下一个位置是 [i - 1, j - 1]。
3. 如果 Mi,j = Mi - 1,j + gp,则下一个位置是 [i - 1, j]。
我们优先考虑向左的方向,因为这样可以使上下文模式中的每个参数标签与原始句子中的多个单词对齐,从而提取由多个单词组成的参数。
1.4 示例
通过一个示例来展示对齐过程和参数提取结果。在图 2 中,灰色位置序列表示具有最大对齐得分的最佳对齐。从对齐结果中,我们可以提取出“Michael Scofield”、“Wentworth Miller”和“Prison Break”作为相关参数,分别具有 ROLE、ACTOR 和 PROGRAM 类型。
2. 半监督多参数关系提取
2.1 现有方法的局限性
大多数现有的关系提取工作集中在提取仅包含两个参数的关系,无论是监督还是半监督方法。然而,在某些情况下,二元关系提取可能不够充分。
2.1.1 多参数关系提取问题
当需要提取包含两个以上参数的关系时,将多个二元关系集成到一个 n 元关系的方法会导致提取任务中的误差累积,并且随着目标关系参数数量的增加,问题会变得更加严重。
2.1.2 相邻参数干扰问题
相关参数倾向于彼此相邻,这可能会干扰二元关系提取任务。例如,在 (PROGRAM, ROLE) 关系中,ACTOR 参数可能会靠近 PROGRAM 和 ROLE 参数,从而削弱上下文模式的覆盖范围。
2.2 提出的方法
为了解决这些问题,我们提出了一种新的半监督多参数关系提取方法。该方法的总体架构如下:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(Seed Data):::process --> B(Extracting Context Patterns):::process
B --> C(Relation Extraction):::process
C --> D(Results):::process
D --> E(Validation & Integration):::process
E --> F(Integrated Result):::process
F -->|Iteration| A
2.2.1 方法步骤
- 定义变量 k,其取值范围为 2 到 n(目标关系中的参数数量)。
- 对于每个 k 值,考虑种子数据中所有 n 个参数的任意 k 个相关参数的组合子集。
-
对于每个子集,执行以下任务:
- 从原始种子数据中分离出仅包含相应参数的子种子数据。
- 使用这些分离的数据作为种子,从源文档中提取上下文模式。
- 基于上下文模式,从源文档中提取包含 k 个相关参数的新元组。
- 并行执行所有派生子集的任务。
- 通过后处理方法验证和集成每个并行执行的结果,得到与原始种子数据中参数数量相同的集成结果。
- 上述任务在自举迭代中执行,每次迭代的结果添加到种子数据中,影响下一次迭代。
2.3 子任务详细描述
2.3.1 上下文模式提取
由于我们使用原始句子与上下文模式之间的对齐方法来提取相关参数,每个上下文模式应采用能够与原始句子对齐的形式。具体步骤如下:
1. 对于种子数据中的每个元组,在源文档中搜索包含该元组所有参数的句子。
2. 为了增强上下文模式的覆盖范围,我们从句子中分割出密集包含参数的子部分。子部分的范围由参数的位置和边距大小 m 确定,从最左边参数左侧第 m 个单词到最右边参数右侧第 m 个单词。
3. 将子句子中的参数部分替换为相应的参数标签,形成上下文模式。
例如,对于三元关系 (PROGRAM, ACTOR, ROLE) 的种子元组 (Prison Break, Michael Scofield, Wentworth Miller),当边距大小 m 为 1 时,我们可以从图 1 中的原始句子中提取上下文模式 “character ⟨ROLE⟩portrayed by ⟨ACTOR⟩in the TV series ⟨PROGRAM⟩is”。
2.3.2 基于成对对齐的关系提取
每个提取的上下文模式与源文档中的句子进行成对对齐,以提取包含相关参数的候选元组。我们根据第 2 节中介绍的对齐矩阵 M 计算每个对齐的得分。
对齐得分基于对齐矩阵 M 中的最大值,该最大值所在位置是回溯任务的起始位置。由于我们将匹配奖励设为 1,不匹配和间隙惩罚设为 0,矩阵 M 上的最大值表示最佳对齐中相等对齐的单词数量。这个值可以通过上下文模式的长度进行归一化,我们定义对齐得分为:
[
score(PTN, RAW) = \frac{\max(M(PTN, RAW))}{length(PTN)}
]
其中,PTN 是上下文模式,RAW 是原始句子,M(PTN, RAW) 是它们之间对齐任务计算得到的矩阵。我们将这个得分作为提取候选的可靠性度量,仅选择得分高于阈值的候选作为提取结果。
2.3.3 基于对齐的验证
大多数并行提取的候选元组仍然存在错误,主要原因是冗余附加问题。该问题是由于在上下文模式中,不仅将参数本身,还将与参数相邻的单词与参数标签对齐而导致的。
为了解决冗余附加问题,我们提出了一种基于对齐的验证方法。具体步骤如下:
1. 定义两个候选参数之间的相似度:
[
similarity(A, B) = \frac{\max(M(A, B)) \times 2}{length(A) + length(B)}
]
其中,A 和 B 是候选参数。
2. 基于元组相似度度量组织相似元组的簇:
[
sim(tuple1, tuple2) = \frac{\sum_{i = 1}^{#args} similarity(tuple1_i, tuple2_i)}{# of arguments}
]
其中,tuple1 和 tuple2 是相互比较的候选元组,tuplei 是元组中的第 i 个参数。将成对相似度高于阈值的元组视为一个簇。
3. 对簇中的每个参数进行成对对齐任务,将每个参数替换为具有最大相似度总和的参数。
通过这种对齐验证,候选的分布反映在最终结果中,有助于提高关系提取的性能。
2.3.4 自底向上集成
从提取和验证的包含相对较少参数的元组中,我们可以集成出包含更多参数的新元组。例如,通过集成 (PROGRAM, ROLE) 关系和 (ACTOR, ROLE) 关系的元组(它们具有共同的 ROLE 参数),可以得到 (PROGRAM, ACTOR, ROLE) 的新元组。
然而,这些新集成的元组可能与一次性提取的现有元组发生冲突。为了解决冲突,我们对包含现有元组和集成元组的集合再次执行验证任务。
3. 实验结果
3.1 实验设置
我们在 930 篇关于电视剧的韩国新闻文档(共 13,175 个句子)上评估了我们的方法。仅使用一个包含 4 个参数的元组 (CHANNEL, PROGRAM, ACTOR, ROLE) 作为种子信息。每个结果在第一次迭代后收集并手动评估。
3.2 阈值实验
我们对关系提取任务中影响提取候选接受率的阈值进行了不同值的实验。选择阈值从 1.0 到 0.7,每次递减 0.05。实验结果表明,随着阈值的降低,正确提取的相关参数数量增加,这意味着在基于对齐的方法中,灵活设置阈值可以增强上下文模式的覆盖范围。
| 阈值 | 包含 2 个参数的正确结果数量 | 包含 3 个参数的正确结果数量 | 包含 4 个参数的正确结果数量 |
|---|---|---|---|
| 1.00 | 0 | 0 | 0 |
| 0.95 | 10 | 5 | 2 |
| 0.90 | 20 | 10 | 5 |
| 0.85 | 30 | 15 | 8 |
| 0.80 | 40 | 20 | 12 |
| 0.75 | 50 | 25 | 16 |
| 0.70 | 60 | 30 | 20 |
3.3 验证任务评估
我们评估了固定阈值为 0.85 时验证任务前后的差异。结果表明,验证任务显著提高了提取结果的精度。在验证结果中,只有 16.28% 的错误是由冗余附加问题引起的,而在验证前,82.0% 的错误是由冗余附加问题导致的。这证实了基于对齐的验证方法通过解决冗余附加问题提高了关系提取的性能。
| 关系类型 | 验证前 | 验证后 | ||
|---|---|---|---|---|
| 元组数量 | 精度 | 元组数量 | 精度 | |
| (ACTOR, ROLE) | 249 | 36.55 | 79 | 73.42 |
| (PROGRAM, ROLE) | 19 | 52.63 | 17 | 58.82 |
| (PROGRAM, ACTOR) | 10 | 60 | 10 | 60 |
| (CHANNEL, PROGRAM) | 12 | 33.33 | 6 | 66.67 |
| (PROGRAM, ACTOR, ROLE) | 7 | 42.86 | 5 | 60 |
| (CHANNEL, PROGRAM, ROLE) | 18 | 55.56 | 16 | 81.25 |
| (CHANNEL, PROGRAM, ACTOR) | 8 | 62.5 | 8 | 75 |
| (CHANNEL, PROGRAM, ACTOR, ROLE) | 15 | 60 | 14 | 85.71 |
3.4 自底向上集成实验
最后,我们比较了使用所有中间子元组的自底向上集成结果与仅依赖二元关系的集成结果。结果显示,使用不仅二元元组,还包括所有中间 k 元关系的方法可以获得更精确、覆盖范围更广的集成结果。
| 关系类型 | 仅使用二元关系 | 使用所有中间元组 | ||
|---|---|---|---|---|
| 元组数量 | 精度 | 元组数量 | 精度 | |
| (PROGRAM, ACTOR, ROLE) | 9 | 77.78 | 9 | 88.89 |
| (CHANNEL, PROGRAM, ROLE) | 11 | 81.82 | 16 | 87.5 |
| (CHANNEL, PROGRAM, ACTOR) | 12 | 58.33 | 9 | 77.78 |
| (CHANNEL, PROGRAM, ACTOR, ROLE) | 8 | 87.5 | 16 | 87.5 |
综上所述,我们提出的基于对齐的半监督多参数关系提取方法在解决现有方法的局限性方面取得了显著成效。通过改进的对齐算法、上下文模式提取、验证和集成方法,提高了关系提取的准确性和效率。然而,该方法仍有改进空间,如缺乏统计和语言特征的利用。未来的工作将致力于进一步完善该方法,并将其应用于更复杂的问题,如自动本体填充。
4. 方法优势总结
4.1 减少误差累积
该方法不仅提取二元关系,还提取直至最终 n 元关系的所有中间 k 元关系。通过中间 k 元关系之间的交叉验证过程,可以减少提取相对较少参数元组集成时的累积误差。例如,在集成多个二元关系为 n 元关系时,中间的 k 元关系可以作为验证和过渡,避免了直接集成二元关系带来的误差累积问题。
4.2 解决相邻参数干扰问题
通过一次性提取两个以上相关参数,能够解决相邻参数干扰二元关系提取的问题。在实际的关系提取场景中,相关参数往往相邻,这会对二元关系提取造成干扰。而本方法可以同时考虑多个参数,避免了这种干扰,提高了上下文模式的覆盖范围和关系提取的准确性。
4.3 提高提取精度和覆盖范围
从实验结果可以看出,通过灵活设置阈值可以增强上下文模式的覆盖范围,同时基于对齐的验证任务显著提高了提取结果的精度。在不同阈值下,正确提取的相关参数数量随着阈值降低而增加,验证任务前后的精度对比也表明了验证方法的有效性。
5. 局限性与未来展望
5.1 现有方法的局限性
5.1.1 缺乏统计和语言特征
当前方法虽然在验证过程中使用了数据的统计特征,但在提取上下文模式时未能充分利用这些特征,导致上下文模式的可靠性有待提高。在语言信息方面,目前的对齐方法缺乏更系统的策略,未能充分反映语言的复杂性和多样性。
5.1.2 适用场景的局限性
该方法主要在韩国新闻文档关于电视剧的数据集上进行了实验,对于其他领域和语言的适用性还需要进一步验证。不同领域和语言的文本特征和关系模式可能存在较大差异,需要对方法进行相应的调整和优化。
5.2 未来工作方向
5.2.1 融入统计和语言特征
未来可以在上下文模式提取过程中引入统计特征,如词频、共现频率等,以提高上下文模式的可靠性。同时,通过定义更系统的对齐策略,将语言信息(如语法结构、语义信息)融入到方法中,进一步提高关系提取的性能。
5.2.2 拓展应用场景
将该方法应用于更多复杂的问题,如自动本体填充。自动本体填充需要从大量文本中提取实体和关系,并将其整合到本体中。本方法的多参数关系提取能力和自举迭代机制可以为自动本体填充提供有效的支持。此外,还可以在不同领域和语言的数据集上进行实验,验证方法的通用性和适应性。
5.2.3 方法优化与改进
不断优化方法的各个环节,如对齐算法、上下文模式提取、验证和集成方法等。可以结合深度学习技术,如循环神经网络(RNN)、卷积神经网络(CNN)等,进一步提高关系提取的准确性和效率。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(当前方法):::process --> B(融入统计和语言特征):::process
A --> C(拓展应用场景):::process
A --> D(方法优化与改进):::process
B --> E(提高性能):::process
C --> E
D --> E
6. 总结
本文介绍的基于对齐的半监督多参数关系提取方法为解决现有关系提取方法的局限性提供了一种有效的解决方案。通过改进的对齐算法、上下文模式提取、验证和集成方法,该方法在减少误差累积、解决相邻参数干扰问题以及提高提取精度和覆盖范围方面取得了显著成效。然而,方法仍存在一些局限性,需要在未来的工作中进一步完善和拓展。通过不断的研究和改进,该方法有望在更多领域和复杂问题中发挥重要作用。
以下是对方法主要步骤的总结表格:
| 步骤 | 描述 |
| ---- | ---- |
| 基于对齐的信息提取 | 改进命名实体识别方法,将原始句子与上下文模式对齐,通过矩阵计算和回溯提取相关参数 |
| 半监督多参数关系提取 | 定义变量 k,考虑参数组合子集,并行执行上下文模式提取和关系提取任务,最后验证和集成结果 |
| 上下文模式提取 | 从源文档中搜索包含元组参数的句子,分割子部分并替换参数为标签形成上下文模式 |
| 基于成对对齐的关系提取 | 计算对齐得分,选择得分高于阈值的候选作为提取结果 |
| 基于对齐的验证 | 定义相似度,组织元组簇,替换参数以解决冗余附加问题 |
| 自底向上集成 | 集成包含较少参数的元组,解决冲突并再次验证 |
通过以上步骤和方法的综合应用,我们可以实现更准确、高效的多参数关系提取。
超级会员免费看
2677

被折叠的 条评论
为什么被折叠?



