93、利用EAFG实现维基百科跨语言信息框对齐

利用EAFG实现维基百科跨语言信息框对齐

1. 研究背景与问题提出

在不同语言版本的维基百科知识库中,属性匹配(属性对齐)是一个重要问题。以往处理维基百科属性匹配问题时,多采用基于标签和值的特征,但在跨语言属性匹配中,直接计算文本相似度存在困难,机器翻译还可能引入更多错误。因此,仅依靠文本特征是不够的。

2. 相关概念定义
  • 维基知识库 :每个语言版本的维基百科可视为一个维基知识库,用 $K = {A, P}$ 表示,其中 $A = {a_i} {i = 1}^{n}$ 是知识库中的文章集合,$n$ 是文章数量;$P = {p_i} {i = 1}^{r}$ 是属性集合,$r$ 是属性数量。
  • 维基文章 :正式定义为 $a = (T_i(a), T_e(a), I_b(a), C(a))$,其中 $T_i(a)$ 是文章标题,$T_e(a)$ 是文章的非结构化文本描述,$I_b(a)$ 是与文章关联的信息框,$C(a)$ 是文章的类别集合。
  • 属性 :定义为一个 5 - 元组 $attr = (L(p), SO(p), AU(p), C(p), T(p))$,各部分含义如下:
    • $L(p)$:属性 $p$ 的标签。
    • $SO(p) = {(a, val) | \forall a \in A, \exists(p, val) \in I_b(a)}$:包含属性的主 - 客体对的集合。
    • $AU(p) = {a | \forall a, \exists(a, val) \in SO(p)}$:使用属性 $p$ 的文章集合。
    • $C(p) = \bigcup_{(p,o) \in I_b(a)} C(a)$:属性出现的类别集合。
    • $T(p) = {p_i}_{i = 1}^{m}$:属性 $p$ 所属的信息框模板。
  • 属性匹配 :给定两个维基知识库 $K_1 = {A_1, P_1}$ 和 $K_2 = {A_2, P_2}$,属性匹配是为 $P_1$ 中的每个属性 $p_i$ 在 $K_2$ 中找到一个或多个等效属性的过程。当两个知识库使用不同语言时,称为跨语言属性匹配(信息框对齐)问题。
3. 提出的方法
3.1 方法概述

为解决上述问题,尝试设计一个同时利用文本、文章、类别和模板特征的模型。面临两个问题:
- 如何利用现有的跨语言链接作为种子,帮助找到更多属性映射?
- 如何利用其他信息(如文章、类别和外部文本)来解决属性本身信息不足的问题?

3.2 实体 - 属性因子图模型(EAFG)

因子图模型假设观测数据不仅依赖于局部特征,还依赖于与其他实例的关系,适合解决该问题。具体原因如下:
- 如果一对属性在一对等效文章中与对齐的属性共同出现,则它们更有可能等效。
- 包含更多等效属性对的模板对在语义上往往更相似,此类模板中的其他属性对也比其他模板中的属性对更有可能等效。
- 如果属性对的同义词对等效,则这些属性对也倾向于等效。

EAFG 模型将属性匹配问题形式化,包含关系图和因子图两部分。关系图表示两个维基百科版本中的几种关系,因子图中的白色节点是变量,有 $x_i$ 和 $y_i$ 两种类型,黑色节点是因子,有 $f$、$g$ 和 $h$ 三种类型,每种类型与一种特征函数相关。

特征函数定义如下:
- 局部特征函数 :$f(y_i, x_i)$ 表示给定 $x_i$ 时标签 $y_i$ 的后验概率,描述 EAFG 中观测变量的局部信息和相似性。
- 标签相似性特征:通过将非英语属性标签翻译成英语后计算 Levenshtein 距离得到相似性。
- 词嵌入相似性特征:使用词嵌入表示标签,计算余弦相似度。
- 主 - 客体相似性特征:根据主 - 客体对的等价关系计算两个属性主 - 客体集合的相似性。
- 文章使用特征:表示包含两个属性的文章集合的相似性。
- 类别相似性特征:表示与两个属性相关的类别集合的相似性。
- 模板特征函数 :$g(y_i, CO(y_i))$ 根据模板信息表示隐藏变量之间的相关性。
- 同义词特征函数 :$h(y_i, SY(y_i))$ 根据同义词信息表示隐藏变量之间的相关性。

联合分布定义为:$p(Y) = \prod_{i} f(y_i, x_i)g(y_i, CO(y_i))h(y_i, SY(y_i))$

具体特征函数公式如下:
1. 局部特征函数
- $f(y_i, x_i) = \frac{1}{Z_{\alpha}} \exp{\alpha^T f(y_i, x_i)}$
- 标签相似性特征:$f_{label} = 1 - \frac{Leven(L(p_a), L(p_b))}{\max(len(L(p_a)), len(L(p_b)))}$
- 词嵌入相似性特征:$f_{we} = 1 - \frac{\arccos(\frac{WE(p_a) \cdot WE(p_b)}{|WE(p_a)| 2 \times |WE(p_b)|_2})}{\pi}$
- 主 - 客体相似性特征:$f
{so} = \frac{2 \times |{(s_i, o_i) \equiv (s_j, o_j) | (s_i, o_i) \in SO(p_a), (s_j, o_j) \in SO(p_b)}|}{|SO(p_a)| + |SO(p_b)|}$
- 文章使用特征:$f_{au} = \frac{2 \times |{(a, b) | (a, b) \in EL, a \in AU(p_a), b \in AU(p_b)}|}{|AU(p_a)| + |AU(p_b)|}$
- 类别相似性特征:$f_{cate} = \frac{2 \times |{(c, c’) | (c, c’) \in EC, c \in C(p_a), c’ \in C(p_b)}|}{|C(p_a)| + |C(p_b)|}$
2. 模板特征函数
- $g(y_i, CO(y_i)) = \frac{1}{Z_{\beta}} \exp{\sum_{y_j \in CO(y_i)} \beta^T g(y_i, y_j)}$
3. 同义词特征函数
- $h(y_i, SY(y_i)) = \frac{1}{Z_{\gamma}} \exp{\sum_{y_j \in S(y_i)} \gamma^T h(y_i, y_j)}$
- 语义相关性:$SR(p_i, p_j) = \frac{2 \times |{(c_i, c_j) | c_i \equiv c_j, c_i \in C(p_i), c_j \in C(p_j)}|}{|C(p_i)| + |C(p_j)|}$
- $h(y_i, y_j) = SR(p_{ai}, p_{aj}) \times SR(p_{bi}, p_{bj})$

3.3 学习与推理

给定 EAFG 中的一组标记节点(已知属性映射),学习模型是估计一个最优参数配置 $\theta = (\alpha, \beta, \gamma)$,以最大化 $p(Y)$ 的对数似然函数。使用梯度下降法估计参数 $\theta$,学习到最优参数后,通过找到一组最大化联合概率 $p(Y)$ 的标签来推断未知标签。

4. 实验
4.1 数据集

从维基百科现有的跨语言属性链接中构建了两个数据集(英语 - 中文和英语 - 法语),每个数据集随机选择 2000 个对应的属性对作为正实例,为每个正实例生成 5 个负实例。数据集大小如下表所示:
| 数据集 | 属性对数量 | 相关文章 | 相关类别 |
| ---- | ---- | ---- | ---- |
| EN - ZH | 2000 | EN: 96,331 ZH: 54,195 | EN: 13,763 ZH: 9,132 |
| EN - FR | 2000 | EN: 103,915 FR: 89,012 | EN: 15,698 FR: 12,371 |

4.2 比较方法
  • 标签匹配(LM) :使用 Google 翻译 API 将其他语言的属性标签翻译成英语,然后进行匹配。
  • 相似性聚合(SA) :将每个属性对的几种相似性平均聚合为一个综合相似性,选择相似性超过阈值 $\varphi$ 的对作为等效对。
  • 支持向量机(SVM) :计算 SA 方法中的五种相似性,训练 SVM 模型进行预测。
  • 逻辑回归(LR - ADAR) :定义 26 个特征并训练逻辑回归模型,使用 17 个特征(去除一些不适合中文的语言特征)。
  • EAFG - NT :与 EAFG 相同,但不使用基于翻译的特征。
4.3 性能指标

使用 Precision、Recall 和 F1 - measure 来评估不同的属性匹配方法。
- Precision:所有发现的匹配中正确发现的匹配的百分比。
- Recall:所有正确匹配中正确发现的匹配的百分比。
- F1 - Measure:Precision 和 Recall 的调和平均值。

4.4 设置

对 SVM、LR - ADAR 和 EAFG 进行 10 折交叉验证。EAFG 使用 0.001 的学习率并运行 1000 次迭代,所有实验在 Ubuntu 14.04 服务器上进行。

4.5 结果分析

不同方法在英语 - 中文和英语 - 法语数据集上的性能如下表所示:
| 方法 | 英语 - 中文(Precision) | 英语 - 中文(Recall) | 英语 - 中文(F1 - Measure) | 英语 - 法语(Precision) | 英语 - 法语(Recall) | 英语 - 法语(F1 - Measure) |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| LM | 0.973 | 0.261 | 0.412 | 0.982 | 0.271 | 0.425 |
| SA | 0.749 | 0.673 | 0.709 | 0.764 | 0.662 | 0.709 |
| SVM | 0.875 | 0.752 | 0.809 | 0.883 | 0.755 | 0.814 |
| LR - ADAR | 0.907 | 0.746 | 0.819 | 0.917 | 0.739 | 0.818 |
| EAFG(NT) | 0.863 | 0.771 | 0.814 | 0.877 | 0.774 | 0.822 |
| EAFG | 0.911 | 0.805 | 0.855 | 0.913 | 0.802 | 0.854 |

从结果可以看出,EAFG 方法在 F1 - measure 上表现最佳,能够考虑属性对之间的相关性,发现更多属性映射。EAFG - NT 虽然不如 EAFG,但也优于 SVM,表明属性之间的相关性对解决问题确实有帮助。英语和法语都是欧洲语言,大多数方法在英语 - 法语数据集上的精度比英语 - 中文数据集更好。

以下是方法流程的 mermaid 流程图:

graph LR
    A[定义问题] --> B[构建数据集]
    B --> C[选择比较方法]
    C --> D[设置实验参数]
    D --> E[进行实验]
    E --> F[分析结果]

综上所述,提出的 EAFG 模型在跨语言属性匹配问题上具有较好的性能,为解决该问题提供了一种有效的方法。

利用EAFG实现维基百科跨语言信息框对齐

5. 技术点分析
5.1 特征函数的作用
  • 局部特征函数 :通过多种特征综合考量属性对的相似性。标签相似性特征利用 Levenshtein 距离,能在一定程度上衡量属性标签的文本相似度;词嵌入相似性特征借助词向量捕捉语义信息,使模型对语义相近的属性有更好的判断。主 - 客体相似性特征、文章使用特征和类别相似性特征则从不同的关联信息角度,进一步丰富了对属性对相似性的判断依据。例如,主 - 客体相似性特征考虑了属性在实际使用中的主客体关系,若两个属性的主客体对存在较多等价关系,那么它们很可能是等效属性。
  • 模板特征函数 :该函数捕捉了模板之间的共享相关性。如果两个属性对在模板上有共同出现的情况,说明它们在语义和使用场景上可能存在紧密联系,从而提高了这些属性对等效的可能性。例如,在描述人物信息的模板中,“出生日期”和“出生地点”这两个属性通常会同时出现,利用模板特征函数就能更好地识别这类属性对之间的关系。
  • 同义词特征函数 :利用同一语言版本内属性的同义词信息来发现更多跨语言属性映射。通过计算语义相关性,能够找到那些虽然在文本上可能不同,但语义相近的属性对,从而扩大了属性匹配的范围。比如,在中文中“籍贯”和“出生地”语义相近,在跨语言匹配中,就可以利用这种同义词关系找到与它们对应的其他语言的等效属性。
5.2 学习与推理的意义

学习过程中,通过梯度下降法估计最优参数配置 $\theta$,使得模型能够根据已知的属性映射来调整自身的参数,以更好地适应数据。推理过程则是在学习到最优参数后,利用这些参数来推断未知的属性标签。这种学习与推理的结合,使得模型能够不断优化自身的性能,从已知数据中学习规律,并应用到未知数据上,从而实现对跨语言属性匹配问题的有效解决。

6. 实际应用与拓展
6.1 维基百科数据整合

在维基百科中,不同语言版本的信息框可能存在属性不一致的情况。利用 EAFG 模型进行跨语言信息框对齐,可以将不同语言版本的相关信息进行整合。例如,在人物词条中,英语版本可能有“Relatives”属性,而中文版本可能没有对应的属性。通过 EAFG 模型找到对应的中文属性后,就可以完善中文信息框,使不同语言版本的维基百科信息更加完整和一致。

6.2 多语言知识图谱构建

知识图谱是一种用于表示实体之间关系的图结构,在多语言环境下,构建知识图谱需要解决跨语言实体和属性匹配的问题。EAFG 模型可以为多语言知识图谱的构建提供有效的属性匹配方法,将不同语言版本的知识图谱进行对齐,从而实现更全面、更准确的知识表示。例如,在构建全球人物知识图谱时,利用 EAFG 模型可以将不同语言中关于人物的属性信息进行准确匹配,使知识图谱能够涵盖更多语言的信息。

7. 总结与展望
7.1 总结

本文提出的实体 - 属性因子图模型(EAFG)在跨语言属性匹配问题上取得了良好的效果。通过同时利用文本、文章、类别和模板特征,以及考虑属性对之间的相关性,EAFG 模型在英语 - 中文和英语 - 法语数据集上的 F1 - measure 分别达到了 85.5% 和 85.4%,优于其他比较方法。实验结果表明,属性之间的相关性对于解决跨语言属性匹配问题具有重要作用,即使不使用基于翻译的特征(如 EAFG - NT),也能取得较好的性能。

7.2 展望

虽然 EAFG 模型在当前的实验中表现出色,但仍有一些可以改进和拓展的方向。
- 更多语言的应用 :目前的实验仅在英语、中文和法语三个语言版本上进行,未来可以将模型应用到更多语言版本的维基百科数据中,进一步验证模型的通用性和有效性。
- 特征的优化 :可以探索更多的特征来丰富模型的判断依据。例如,考虑属性值的时间信息、数据来源等因素,以提高模型对属性等效性的判断精度。
- 模型的融合 :可以尝试将 EAFG 模型与其他机器学习模型或自然语言处理技术进行融合,以进一步提升模型的性能。例如,结合深度学习模型对属性文本进行更深入的语义分析,从而更好地处理复杂的语义关系。

以下是 EAFG 模型优势总结的表格:
| 优势 | 描述 |
| ---- | ---- |
| 多特征融合 | 综合利用文本、文章、类别和模板特征,全面考量属性对的相似性 |
| 考虑相关性 | 考虑属性对之间的相关性,能够发现更多潜在的属性映射 |
| 性能优越 | 在英语 - 中文和英语 - 法语数据集上的 F1 - measure 表现出色 |

以下是未来拓展方向的 mermaid 流程图:

graph LR
    A[EAFG模型] --> B[更多语言应用]
    A --> C[特征优化]
    A --> D[模型融合]

通过对 EAFG 模型的深入研究和应用,有望在跨语言信息处理领域取得更大的突破,为多语言知识的整合和利用提供更有效的方法。

本 PPT 介绍了制药厂房中供配电系统的总体概念与设计要点,内容包括: 洁净厂房的特点及其对供配电系统的特殊要求; 供配电设计的一般原则与依据的国家/行业标准; 从上级电网到工厂变电所、终端配电的总体结构与模块化设计思路; 供配电范围:动力配电、照明、通讯、接地、防雷与消防等; 动力配电中电压等级、接地系统形式(如 TN-S)、负荷等级与可靠性、UPS 配置等; 照明的电源方式、光源选择、安装方式、应急与备用照明要求; 通讯系统、监控系统在生产管理与消防中的作用; 接地与等电位连接、防雷等级与防雷措施; 消防设施及其专用供电(消防泵、排烟风机、消防控制室、应急照明等); 常见高压柜、动力柜、照明箱等配电设备案例及部分设计图纸示意; 公司已完成的典型项目案例。 1. 工程背景与总体架 所属领域:制药厂房工程的公用工程系统,其中本 PPT 聚焦于供配电系统。 放在整个公用工程中的位置:与给排水、纯化水/注射用水、气体与热力、暖通空调、自动化控制等系统并列。 2. Part 01 供配电概述 2.1 洁净厂房的特点 空间密闭,结构复杂、走向曲折; 单相设备、仪器种类多,工艺设备昂贵、精密; 装修材料与工艺材料种类多,对尘埃、静电等更敏感。 这些特点决定了:供配电系统要安全可靠、减少积尘、便于清洁和维护。 2.2 供配电总则 供配电设计应满足: 可靠、经济、适用; 保障人身与财产安全; 便于安装与维护; 采用技术先进的设备与方案。 2.3 设计依据与规范 引用了大量俄语标准(ГОСТ、СНиП、SanPiN 等)以及国家、行业和地方规范,作为设计的法规基础文件,包括: 电气设备、接线、接地、电气安全; 建筑物电气装置、照明标准; 卫生与安全相关规范等。 3. Part 02 供配电总览 从电源系统整体结构进行总览: 上级:地方电网; 工厂变电所(10kV 配电装置、变压
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值