93、利用EAFG实现维基百科跨语言信息框对齐

c7d8e9

于 2025-08-30 05:41:22 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：语义网的现在与未来文章标签： EAFG 维基百科跨语言信息框对齐

本文链接：https://blog.youkuaiyun.com/c7d8e9/article/details/151006166

语义网的现在与未来专栏收录该内容

93 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用EAFG实现维基百科跨语言信息框对齐

1. 研究背景与问题提出

在不同语言版本的维基百科知识库中，属性匹配（属性对齐）是一个重要问题。以往处理维基百科属性匹配问题时，多采用基于标签和值的特征，但在跨语言属性匹配中，直接计算文本相似度存在困难，机器翻译还可能引入更多错误。因此，仅依靠文本特征是不够的。

2. 相关概念定义

维基知识库 ：每个语言版本的维基百科可视为一个维基知识库，用 $K = {A, P}$ 表示，其中 $A = {a_i} {i = 1}^{n}$ 是知识库中的文章集合，$n$ 是文章数量；$P = {p_i} {i = 1}^{r}$ 是属性集合，$r$ 是属性数量。
维基文章 ：正式定义为 $a = (T_i(a), T_e(a), I_b(a), C(a))$，其中 $T_i(a)$ 是文章标题，$T_e(a)$ 是文章的非结构化文本描述，$I_b(a)$ 是与文章关联的信息框，$C(a)$ 是文章的类别集合。
属性：定义为一个 5 - 元组 $attr = (L(p), SO(p), AU(p), C(p), T(p))$，各部分含义如下：
- $L(p)$：属性 $p$ 的标签。
- $SO(p) = {(a, val) | \forall a \in A, \exists(p, val) \in I_b(a)}$：包含属性的主 - 客体对的集合。
- $AU(p) = {a | \forall a, \exists(a, val) \in SO(p)}$：使用属性 $p$ 的文章集合。
- $C(p) = \bigcup_{(p,o) \in I_b(a)} C(a)$：属性出现的类别集合。
- $T(p) = {p_i}_{i = 1}^{m}$：属性 $p$ 所属的信息框模板。
属性匹配 ：给定两个维基知识库 $K_1 = {A_1, P_1}$ 和 $K_2 = {A_2, P_2}$，属性匹配是为 $P_1$ 中的每个属性 $p_i$ 在 $K_2$ 中找到一个或多个等效属性的过程。当两个知识库使用不同语言时，称为跨语言属性匹配（信息框对齐）问题。

3. 提出的方法

3.1 方法概述

为解决上述问题，尝试设计一个同时利用文本、文章、类别和模板特征的模型。面临两个问题：
- 如何利用现有的跨语言链接作为种子，帮助找到更多属性映射？
- 如何利用其他信息（如文章、类别和外部文本）来解决属性本身信息不足的问题？

3.2 实体 - 属性因子图模型（EAFG）

因子图模型假设观测数据不仅依赖于局部特征，还依赖于与其他实例的关系，适合解决该问题。具体原因如下：
- 如果一对属性在一对等效文章中与对齐的属性共同出现，则它们更有可能等效。
- 包含更多等效属性对的模板对在语义上往往更相似，此类模板中的其他属性对也比其他模板中的属性对更有可能等效。
- 如果属性对的同义词对等效，则这些属性对也倾向于等效。

EAFG 模型将属性匹配问题形式化，包含关系图和因子图两部分。关系图表示两个维基百科版本中的几种关系，因子图中的白色节点是变量，有 $x_i$ 和 $y_i$ 两种类型，黑色节点是因子，有 $f$、$g$ 和 $h$ 三种类型，每种类型与一种特征函数相关。

特征函数定义如下：
- 局部特征函数 ：$f(y_i, x_i)$ 表示给定 $x_i$ 时标签 $y_i$ 的后验概率，描述 EAFG 中观测变量的局部信息和相似性。
- 标签相似性特征：通过将非英语属性标签翻译成英语后计算 Levenshtein 距离得到相似性。
- 词嵌入相似性特征：使用词嵌入表示标签，计算余弦相似度。
- 主 - 客体相似性特征：根据主 - 客体对的等价关系计算两个属性主 - 客体集合的相似性。
- 文章使用特征：表示包含两个属性的文章集合的相似性。
- 类别相似性特征：表示与两个属性相关的类别集合的相似性。
- 模板特征函数 ：$g(y_i, CO(y_i))$ 根据模板信息表示隐藏变量之间的相关性。
- 同义词特征函数 ：$h(y_i, SY(y_i))$ 根据同义词信息表示隐藏变量之间的相关性。

联合分布定义为：$p(Y) = \prod_{i} f(y_i, x_i)g(y_i, CO(y_i))h(y_i, SY(y_i))$

具体特征函数公式如下：
1. 局部特征函数
- $f(y_i, x_i) = \frac{1}{Z_{\alpha}} \exp{\alpha^T f(y_i, x_i)}$
- 标签相似性特征：$f_{label} = 1 - \frac{Leven(L(p_a), L(p_b))}{\max(len(L(p_a)), len(L(p_b)))}$
- 词嵌入相似性特征：$f_{we} = 1 - \frac{\arccos(\frac{WE(p_a) \cdot WE(p_b)}{|WE(p_a)| 2 \times |WE(p_b)|_2})}{\pi}$
- 主 - 客体相似性特征：$f {so} = \frac{2 \times |{(s_i, o_i) \equiv (s_j, o_j) | (s_i, o_i) \in SO(p_a), (s_j, o_j) \in SO(p_b)}|}{|SO(p_a)| + |SO(p_b)|}$
- 文章使用特征：$f_{au} = \frac{2 \times |{(a, b) | (a, b) \in EL, a \in AU(p_a), b \in AU(p_b)}|}{|AU(p_a)| + |AU(p_b)|}$
- 类别相似性特征：$f_{cate} = \frac{2 \times |{(c, c’) | (c, c’) \in EC, c \in C(p_a), c’ \in C(p_b)}|}{|C(p_a)| + |C(p_b)|}$
2. 模板特征函数
- $g(y_i, CO(y_i)) = \frac{1}{Z_{\beta}} \exp{\sum_{y_j \in CO(y_i)} \beta^T g(y_i, y_j)}$
3. 同义词特征函数
- $h(y_i, SY(y_i)) = \frac{1}{Z_{\gamma}} \exp{\sum_{y_j \in S(y_i)} \gamma^T h(y_i, y_j)}$
- 语义相关性：$SR(p_i, p_j) = \frac{2 \times |{(c_i, c_j) | c_i \equiv c_j, c_i \in C(p_i), c_j \in C(p_j)}|}{|C(p_i)| + |C(p_j)|}$
- $h(y_i, y_j) = SR(p_{ai}, p_{aj}) \times SR(p_{bi}, p_{bj})$

3.3 学习与推理

给定 EAFG 中的一组标记节点（已知属性映射），学习模型是估计一个最优参数配置 $\theta = (\alpha, \beta, \gamma)$，以最大化 $p(Y)$ 的对数似然函数。使用梯度下降法估计参数 $\theta$，学习到最优参数后，通过找到一组最大化联合概率 $p(Y)$ 的标签来推断未知标签。

4. 实验

4.1 数据集

从维基百科现有的跨语言属性链接中构建了两个数据集（英语 - 中文和英语 - 法语），每个数据集随机选择 2000 个对应的属性对作为正实例，为每个正实例生成 5 个负实例。数据集大小如下表所示：
| 数据集 | 属性对数量 | 相关文章 | 相关类别 |
| ---- | ---- | ---- | ---- |
| EN - ZH | 2000 | EN: 96,331 ZH: 54,195 | EN: 13,763 ZH: 9,132 |
| EN - FR | 2000 | EN: 103,915 FR: 89,012 | EN: 15,698 FR: 12,371 |

4.2 比较方法

标签匹配（LM） ：使用 Google 翻译 API 将其他语言的属性标签翻译成英语，然后进行匹配。
相似性聚合（SA） ：将每个属性对的几种相似性平均聚合为一个综合相似性，选择相似性超过阈值 $\varphi$ 的对作为等效对。
支持向量机（SVM） ：计算 SA 方法中的五种相似性，训练 SVM 模型进行预测。
逻辑回归（LR - ADAR） ：定义 26 个特征并训练逻辑回归模型，使用 17 个特征（去除一些不适合中文的语言特征）。
EAFG - NT ：与 EAFG 相同，但不使用基于翻译的特征。

4.3 性能指标

使用 Precision、Recall 和 F1 - measure 来评估不同的属性匹配方法。
- Precision：所有发现的匹配中正确发现的匹配的百分比。
- Recall：所有正确匹配中正确发现的匹配的百分比。
- F1 - Measure：Precision 和 Recall 的调和平均值。

4.4 设置

对 SVM、LR - ADAR 和 EAFG 进行 10 折交叉验证。EAFG 使用 0.001 的学习率并运行 1000 次迭代，所有实验在 Ubuntu 14.04 服务器上进行。

4.5 结果分析

不同方法在英语 - 中文和英语 - 法语数据集上的性能如下表所示：
| 方法 | 英语 - 中文（Precision） | 英语 - 中文（Recall） | 英语 - 中文（F1 - Measure） | 英语 - 法语（Precision） | 英语 - 法语（Recall） | 英语 - 法语（F1 - Measure） |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| LM | 0.973 | 0.261 | 0.412 | 0.982 | 0.271 | 0.425 |
| SA | 0.749 | 0.673 | 0.709 | 0.764 | 0.662 | 0.709 |
| SVM | 0.875 | 0.752 | 0.809 | 0.883 | 0.755 | 0.814 |
| LR - ADAR | 0.907 | 0.746 | 0.819 | 0.917 | 0.739 | 0.818 |
| EAFG(NT) | 0.863 | 0.771 | 0.814 | 0.877 | 0.774 | 0.822 |
| EAFG | 0.911 | 0.805 | 0.855 | 0.913 | 0.802 | 0.854 |

从结果可以看出，EAFG 方法在 F1 - measure 上表现最佳，能够考虑属性对之间的相关性，发现更多属性映射。EAFG - NT 虽然不如 EAFG，但也优于 SVM，表明属性之间的相关性对解决问题确实有帮助。英语和法语都是欧洲语言，大多数方法在英语 - 法语数据集上的精度比英语 - 中文数据集更好。

以下是方法流程的 mermaid 流程图：

graph LR
    A[定义问题] --> B[构建数据集]
    B --> C[选择比较方法]
    C --> D[设置实验参数]
    D --> E[进行实验]
    E --> F[分析结果]

综上所述，提出的 EAFG 模型在跨语言属性匹配问题上具有较好的性能，为解决该问题提供了一种有效的方法。

利用EAFG实现维基百科跨语言信息框对齐

5. 技术点分析

5.1 特征函数的作用

局部特征函数 ：通过多种特征综合考量属性对的相似性。标签相似性特征利用 Levenshtein 距离，能在一定程度上衡量属性标签的文本相似度；词嵌入相似性特征借助词向量捕捉语义信息，使模型对语义相近的属性有更好的判断。主 - 客体相似性特征、文章使用特征和类别相似性特征则从不同的关联信息角度，进一步丰富了对属性对相似性的判断依据。例如，主 - 客体相似性特征考虑了属性在实际使用中的主客体关系，若两个属性的主客体对存在较多等价关系，那么它们很可能是等效属性。
模板特征函数 ：该函数捕捉了模板之间的共享相关性。如果两个属性对在模板上有共同出现的情况，说明它们在语义和使用场景上可能存在紧密联系，从而提高了这些属性对等效的可能性。例如，在描述人物信息的模板中，“出生日期”和“出生地点”这两个属性通常会同时出现，利用模板特征函数就能更好地识别这类属性对之间的关系。
同义词特征函数 ：利用同一语言版本内属性的同义词信息来发现更多跨语言属性映射。通过计算语义相关性，能够找到那些虽然在文本上可能不同，但语义相近的属性对，从而扩大了属性匹配的范围。比如，在中文中“籍贯”和“出生地”语义相近，在跨语言匹配中，就可以利用这种同义词关系找到与它们对应的其他语言的等效属性。

5.2 学习与推理的意义

学习过程中，通过梯度下降法估计最优参数配置 $\theta$，使得模型能够根据已知的属性映射来调整自身的参数，以更好地适应数据。推理过程则是在学习到最优参数后，利用这些参数来推断未知的属性标签。这种学习与推理的结合，使得模型能够不断优化自身的性能，从已知数据中学习规律，并应用到未知数据上，从而实现对跨语言属性匹配问题的有效解决。

6. 实际应用与拓展

6.1 维基百科数据整合

在维基百科中，不同语言版本的信息框可能存在属性不一致的情况。利用 EAFG 模型进行跨语言信息框对齐，可以将不同语言版本的相关信息进行整合。例如，在人物词条中，英语版本可能有“Relatives”属性，而中文版本可能没有对应的属性。通过 EAFG 模型找到对应的中文属性后，就可以完善中文信息框，使不同语言版本的维基百科信息更加完整和一致。

6.2 多语言知识图谱构建

知识图谱是一种用于表示实体之间关系的图结构，在多语言环境下，构建知识图谱需要解决跨语言实体和属性匹配的问题。EAFG 模型可以为多语言知识图谱的构建提供有效的属性匹配方法，将不同语言版本的知识图谱进行对齐，从而实现更全面、更准确的知识表示。例如，在构建全球人物知识图谱时，利用 EAFG 模型可以将不同语言中关于人物的属性信息进行准确匹配，使知识图谱能够涵盖更多语言的信息。

7. 总结与展望

7.1 总结

本文提出的实体 - 属性因子图模型（EAFG）在跨语言属性匹配问题上取得了良好的效果。通过同时利用文本、文章、类别和模板特征，以及考虑属性对之间的相关性，EAFG 模型在英语 - 中文和英语 - 法语数据集上的 F1 - measure 分别达到了 85.5% 和 85.4%，优于其他比较方法。实验结果表明，属性之间的相关性对于解决跨语言属性匹配问题具有重要作用，即使不使用基于翻译的特征（如 EAFG - NT），也能取得较好的性能。

7.2 展望

虽然 EAFG 模型在当前的实验中表现出色，但仍有一些可以改进和拓展的方向。
- 更多语言的应用 ：目前的实验仅在英语、中文和法语三个语言版本上进行，未来可以将模型应用到更多语言版本的维基百科数据中，进一步验证模型的通用性和有效性。
- 特征的优化 ：可以探索更多的特征来丰富模型的判断依据。例如，考虑属性值的时间信息、数据来源等因素，以提高模型对属性等效性的判断精度。
- 模型的融合 ：可以尝试将 EAFG 模型与其他机器学习模型或自然语言处理技术进行融合，以进一步提升模型的性能。例如，结合深度学习模型对属性文本进行更深入的语义分析，从而更好地处理复杂的语义关系。

以下是 EAFG 模型优势总结的表格：
| 优势 | 描述 |
| ---- | ---- |
| 多特征融合 | 综合利用文本、文章、类别和模板特征，全面考量属性对的相似性 |
| 考虑相关性 | 考虑属性对之间的相关性，能够发现更多潜在的属性映射 |
| 性能优越 | 在英语 - 中文和英语 - 法语数据集上的 F1 - measure 表现出色 |

以下是未来拓展方向的 mermaid 流程图：

graph LR
    A[EAFG模型] --> B[更多语言应用]
    A --> C[特征优化]
    A --> D[模型融合]

通过对 EAFG 模型的深入研究和应用，有望在跨语言信息处理领域取得更大的突破，为多语言知识的整合和利用提供更有效的方法。