利用EAFG实现维基百科跨语言信息框对齐
1. 研究背景与问题提出
在不同语言版本的维基百科知识库中,属性匹配(属性对齐)是一个重要问题。以往处理维基百科属性匹配问题时,多采用基于标签和值的特征,但在跨语言属性匹配中,直接计算文本相似度存在困难,机器翻译还可能引入更多错误。因此,仅依靠文本特征是不够的。
2. 相关概念定义
- 维基知识库 :每个语言版本的维基百科可视为一个维基知识库,用 $K = {A, P}$ 表示,其中 $A = {a_i} {i = 1}^{n}$ 是知识库中的文章集合,$n$ 是文章数量;$P = {p_i} {i = 1}^{r}$ 是属性集合,$r$ 是属性数量。
- 维基文章 :正式定义为 $a = (T_i(a), T_e(a), I_b(a), C(a))$,其中 $T_i(a)$ 是文章标题,$T_e(a)$ 是文章的非结构化文本描述,$I_b(a)$ 是与文章关联的信息框,$C(a)$ 是文章的类别集合。
-
属性
:定义为一个 5 - 元组 $attr = (L(p), SO(p), AU(p), C(p), T(p))$,各部分含义如下:
- $L(p)$:属性 $p$ 的标签。
- $SO(p) = {(a, val) | \forall a \in A, \exists(p, val) \in I_b(a)}$:包含属性的主 - 客体对的集合。
- $AU(p) = {a | \forall a, \exists(a, val) \in SO(p)}$:使用属性 $p$ 的文章集合。
- $C(p) = \bigcup_{(p,o) \in I_b(a)} C(a)$:属性出现的类别集合。
- $T(p) = {p_i}_{i = 1}^{m}$:属性 $p$ 所属的信息框模板。
- 属性匹配 :给定两个维基知识库 $K_1 = {A_1, P_1}$ 和 $K_2 = {A_2, P_2}$,属性匹配是为 $P_1$ 中的每个属性 $p_i$ 在 $K_2$ 中找到一个或多个等效属性的过程。当两个知识库使用不同语言时,称为跨语言属性匹配(信息框对齐)问题。
3. 提出的方法
3.1 方法概述
为解决上述问题,尝试设计一个同时利用文本、文章、类别和模板特征的模型。面临两个问题:
- 如何利用现有的跨语言链接作为种子,帮助找到更多属性映射?
- 如何利用其他信息(如文章、类别和外部文本)来解决属性本身信息不足的问题?
3.2 实体 - 属性因子图模型(EAFG)
因子图模型假设观测数据不仅依赖于局部特征,还依赖于与其他实例的关系,适合解决该问题。具体原因如下:
- 如果一对属性在一对等效文章中与对齐的属性共同出现,则它们更有可能等效。
- 包含更多等效属性对的模板对在语义上往往更相似,此类模板中的其他属性对也比其他模板中的属性对更有可能等效。
- 如果属性对的同义词对等效,则这些属性对也倾向于等效。
EAFG 模型将属性匹配问题形式化,包含关系图和因子图两部分。关系图表示两个维基百科版本中的几种关系,因子图中的白色节点是变量,有 $x_i$ 和 $y_i$ 两种类型,黑色节点是因子,有 $f$、$g$ 和 $h$ 三种类型,每种类型与一种特征函数相关。
特征函数定义如下:
-
局部特征函数
:$f(y_i, x_i)$ 表示给定 $x_i$ 时标签 $y_i$ 的后验概率,描述 EAFG 中观测变量的局部信息和相似性。
- 标签相似性特征:通过将非英语属性标签翻译成英语后计算 Levenshtein 距离得到相似性。
- 词嵌入相似性特征:使用词嵌入表示标签,计算余弦相似度。
- 主 - 客体相似性特征:根据主 - 客体对的等价关系计算两个属性主 - 客体集合的相似性。
- 文章使用特征:表示包含两个属性的文章集合的相似性。
- 类别相似性特征:表示与两个属性相关的类别集合的相似性。
-
模板特征函数
:$g(y_i, CO(y_i))$ 根据模板信息表示隐藏变量之间的相关性。
-
同义词特征函数
:$h(y_i, SY(y_i))$ 根据同义词信息表示隐藏变量之间的相关性。
联合分布定义为:$p(Y) = \prod_{i} f(y_i, x_i)g(y_i, CO(y_i))h(y_i, SY(y_i))$
具体特征函数公式如下:
1.
局部特征函数
- $f(y_i, x_i) = \frac{1}{Z_{\alpha}} \exp{\alpha^T f(y_i, x_i)}$
- 标签相似性特征:$f_{label} = 1 - \frac{Leven(L(p_a), L(p_b))}{\max(len(L(p_a)), len(L(p_b)))}$
- 词嵌入相似性特征:$f_{we} = 1 - \frac{\arccos(\frac{WE(p_a) \cdot WE(p_b)}{|WE(p_a)|
2 \times |WE(p_b)|_2})}{\pi}$
- 主 - 客体相似性特征:$f
{so} = \frac{2 \times |{(s_i, o_i) \equiv (s_j, o_j) | (s_i, o_i) \in SO(p_a), (s_j, o_j) \in SO(p_b)}|}{|SO(p_a)| + |SO(p_b)|}$
- 文章使用特征:$f_{au} = \frac{2 \times |{(a, b) | (a, b) \in EL, a \in AU(p_a), b \in AU(p_b)}|}{|AU(p_a)| + |AU(p_b)|}$
- 类别相似性特征:$f_{cate} = \frac{2 \times |{(c, c’) | (c, c’) \in EC, c \in C(p_a), c’ \in C(p_b)}|}{|C(p_a)| + |C(p_b)|}$
2.
模板特征函数
- $g(y_i, CO(y_i)) = \frac{1}{Z_{\beta}} \exp{\sum_{y_j \in CO(y_i)} \beta^T g(y_i, y_j)}$
3.
同义词特征函数
- $h(y_i, SY(y_i)) = \frac{1}{Z_{\gamma}} \exp{\sum_{y_j \in S(y_i)} \gamma^T h(y_i, y_j)}$
- 语义相关性:$SR(p_i, p_j) = \frac{2 \times |{(c_i, c_j) | c_i \equiv c_j, c_i \in C(p_i), c_j \in C(p_j)}|}{|C(p_i)| + |C(p_j)|}$
- $h(y_i, y_j) = SR(p_{ai}, p_{aj}) \times SR(p_{bi}, p_{bj})$
3.3 学习与推理
给定 EAFG 中的一组标记节点(已知属性映射),学习模型是估计一个最优参数配置 $\theta = (\alpha, \beta, \gamma)$,以最大化 $p(Y)$ 的对数似然函数。使用梯度下降法估计参数 $\theta$,学习到最优参数后,通过找到一组最大化联合概率 $p(Y)$ 的标签来推断未知标签。
4. 实验
4.1 数据集
从维基百科现有的跨语言属性链接中构建了两个数据集(英语 - 中文和英语 - 法语),每个数据集随机选择 2000 个对应的属性对作为正实例,为每个正实例生成 5 个负实例。数据集大小如下表所示:
| 数据集 | 属性对数量 | 相关文章 | 相关类别 |
| ---- | ---- | ---- | ---- |
| EN - ZH | 2000 | EN: 96,331 ZH: 54,195 | EN: 13,763 ZH: 9,132 |
| EN - FR | 2000 | EN: 103,915 FR: 89,012 | EN: 15,698 FR: 12,371 |
4.2 比较方法
- 标签匹配(LM) :使用 Google 翻译 API 将其他语言的属性标签翻译成英语,然后进行匹配。
- 相似性聚合(SA) :将每个属性对的几种相似性平均聚合为一个综合相似性,选择相似性超过阈值 $\varphi$ 的对作为等效对。
- 支持向量机(SVM) :计算 SA 方法中的五种相似性,训练 SVM 模型进行预测。
- 逻辑回归(LR - ADAR) :定义 26 个特征并训练逻辑回归模型,使用 17 个特征(去除一些不适合中文的语言特征)。
- EAFG - NT :与 EAFG 相同,但不使用基于翻译的特征。
4.3 性能指标
使用 Precision、Recall 和 F1 - measure 来评估不同的属性匹配方法。
- Precision:所有发现的匹配中正确发现的匹配的百分比。
- Recall:所有正确匹配中正确发现的匹配的百分比。
- F1 - Measure:Precision 和 Recall 的调和平均值。
4.4 设置
对 SVM、LR - ADAR 和 EAFG 进行 10 折交叉验证。EAFG 使用 0.001 的学习率并运行 1000 次迭代,所有实验在 Ubuntu 14.04 服务器上进行。
4.5 结果分析
不同方法在英语 - 中文和英语 - 法语数据集上的性能如下表所示:
| 方法 | 英语 - 中文(Precision) | 英语 - 中文(Recall) | 英语 - 中文(F1 - Measure) | 英语 - 法语(Precision) | 英语 - 法语(Recall) | 英语 - 法语(F1 - Measure) |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| LM | 0.973 | 0.261 | 0.412 | 0.982 | 0.271 | 0.425 |
| SA | 0.749 | 0.673 | 0.709 | 0.764 | 0.662 | 0.709 |
| SVM | 0.875 | 0.752 | 0.809 | 0.883 | 0.755 | 0.814 |
| LR - ADAR | 0.907 | 0.746 | 0.819 | 0.917 | 0.739 | 0.818 |
| EAFG(NT) | 0.863 | 0.771 | 0.814 | 0.877 | 0.774 | 0.822 |
| EAFG | 0.911 | 0.805 | 0.855 | 0.913 | 0.802 | 0.854 |
从结果可以看出,EAFG 方法在 F1 - measure 上表现最佳,能够考虑属性对之间的相关性,发现更多属性映射。EAFG - NT 虽然不如 EAFG,但也优于 SVM,表明属性之间的相关性对解决问题确实有帮助。英语和法语都是欧洲语言,大多数方法在英语 - 法语数据集上的精度比英语 - 中文数据集更好。
以下是方法流程的 mermaid 流程图:
graph LR
A[定义问题] --> B[构建数据集]
B --> C[选择比较方法]
C --> D[设置实验参数]
D --> E[进行实验]
E --> F[分析结果]
综上所述,提出的 EAFG 模型在跨语言属性匹配问题上具有较好的性能,为解决该问题提供了一种有效的方法。
利用EAFG实现维基百科跨语言信息框对齐
5. 技术点分析
5.1 特征函数的作用
- 局部特征函数 :通过多种特征综合考量属性对的相似性。标签相似性特征利用 Levenshtein 距离,能在一定程度上衡量属性标签的文本相似度;词嵌入相似性特征借助词向量捕捉语义信息,使模型对语义相近的属性有更好的判断。主 - 客体相似性特征、文章使用特征和类别相似性特征则从不同的关联信息角度,进一步丰富了对属性对相似性的判断依据。例如,主 - 客体相似性特征考虑了属性在实际使用中的主客体关系,若两个属性的主客体对存在较多等价关系,那么它们很可能是等效属性。
- 模板特征函数 :该函数捕捉了模板之间的共享相关性。如果两个属性对在模板上有共同出现的情况,说明它们在语义和使用场景上可能存在紧密联系,从而提高了这些属性对等效的可能性。例如,在描述人物信息的模板中,“出生日期”和“出生地点”这两个属性通常会同时出现,利用模板特征函数就能更好地识别这类属性对之间的关系。
- 同义词特征函数 :利用同一语言版本内属性的同义词信息来发现更多跨语言属性映射。通过计算语义相关性,能够找到那些虽然在文本上可能不同,但语义相近的属性对,从而扩大了属性匹配的范围。比如,在中文中“籍贯”和“出生地”语义相近,在跨语言匹配中,就可以利用这种同义词关系找到与它们对应的其他语言的等效属性。
5.2 学习与推理的意义
学习过程中,通过梯度下降法估计最优参数配置 $\theta$,使得模型能够根据已知的属性映射来调整自身的参数,以更好地适应数据。推理过程则是在学习到最优参数后,利用这些参数来推断未知的属性标签。这种学习与推理的结合,使得模型能够不断优化自身的性能,从已知数据中学习规律,并应用到未知数据上,从而实现对跨语言属性匹配问题的有效解决。
6. 实际应用与拓展
6.1 维基百科数据整合
在维基百科中,不同语言版本的信息框可能存在属性不一致的情况。利用 EAFG 模型进行跨语言信息框对齐,可以将不同语言版本的相关信息进行整合。例如,在人物词条中,英语版本可能有“Relatives”属性,而中文版本可能没有对应的属性。通过 EAFG 模型找到对应的中文属性后,就可以完善中文信息框,使不同语言版本的维基百科信息更加完整和一致。
6.2 多语言知识图谱构建
知识图谱是一种用于表示实体之间关系的图结构,在多语言环境下,构建知识图谱需要解决跨语言实体和属性匹配的问题。EAFG 模型可以为多语言知识图谱的构建提供有效的属性匹配方法,将不同语言版本的知识图谱进行对齐,从而实现更全面、更准确的知识表示。例如,在构建全球人物知识图谱时,利用 EAFG 模型可以将不同语言中关于人物的属性信息进行准确匹配,使知识图谱能够涵盖更多语言的信息。
7. 总结与展望
7.1 总结
本文提出的实体 - 属性因子图模型(EAFG)在跨语言属性匹配问题上取得了良好的效果。通过同时利用文本、文章、类别和模板特征,以及考虑属性对之间的相关性,EAFG 模型在英语 - 中文和英语 - 法语数据集上的 F1 - measure 分别达到了 85.5% 和 85.4%,优于其他比较方法。实验结果表明,属性之间的相关性对于解决跨语言属性匹配问题具有重要作用,即使不使用基于翻译的特征(如 EAFG - NT),也能取得较好的性能。
7.2 展望
虽然 EAFG 模型在当前的实验中表现出色,但仍有一些可以改进和拓展的方向。
-
更多语言的应用
:目前的实验仅在英语、中文和法语三个语言版本上进行,未来可以将模型应用到更多语言版本的维基百科数据中,进一步验证模型的通用性和有效性。
-
特征的优化
:可以探索更多的特征来丰富模型的判断依据。例如,考虑属性值的时间信息、数据来源等因素,以提高模型对属性等效性的判断精度。
-
模型的融合
:可以尝试将 EAFG 模型与其他机器学习模型或自然语言处理技术进行融合,以进一步提升模型的性能。例如,结合深度学习模型对属性文本进行更深入的语义分析,从而更好地处理复杂的语义关系。
以下是 EAFG 模型优势总结的表格:
| 优势 | 描述 |
| ---- | ---- |
| 多特征融合 | 综合利用文本、文章、类别和模板特征,全面考量属性对的相似性 |
| 考虑相关性 | 考虑属性对之间的相关性,能够发现更多潜在的属性映射 |
| 性能优越 | 在英语 - 中文和英语 - 法语数据集上的 F1 - measure 表现出色 |
以下是未来拓展方向的 mermaid 流程图:
graph LR
A[EAFG模型] --> B[更多语言应用]
A --> C[特征优化]
A --> D[模型融合]
通过对 EAFG 模型的深入研究和应用,有望在跨语言信息处理领域取得更大的突破,为多语言知识的整合和利用提供更有效的方法。
超级会员免费看
2万+

被折叠的 条评论
为什么被折叠?



