Tupelo:实现异构关系数据源数据映射的创新方案
在当今的数据处理领域,异构关系数据源之间的数据映射是一个关键且具有挑战性的问题。不同数据源的结构和语义差异,使得实现高效、准确的数据映射并非易事。Tupelo 数据映射系统作为一种创新的解决方案,为解决这一问题提供了新的思路和方法。
1. Tupelo 简介
Tupelo 是一个示例驱动的系统,旨在半自动化地发现异构关系数据源之间可执行的数据映射表达式。它能够处理涉及模式匹配、动态数据 - 元数据重组以及复杂(多对一)语义函数的异构信息系统间的交互操作。比如,它可以生成图 1 中三个航空公司数据库实例之间的映射表达式。
Tupelo 的设计遵循了为关系数据映射问题(RelationalDMP)解决方案开发的通用框架。以往的数据映射发现解决方案存在一些问题,没有清晰地分离与数据映射发现相关的各个子问题,导致研究文献术语不一致、工作重复。而 Tupelo 则对现有方法进行了澄清、补充和扩展,具有以下特点:
- 提出并验证了将映射查询发现过程作为示例驱动的搜索问题。
- 明确模块化数据映射查询发现的各个方面。
- 无缝地将复杂语义函数融入完整的、可执行的映射语言中。
- 生成的映射查询包含克服关系数据源异构性所需的全方位数据 - 元数据结构转换。
2. 动态关系数据映射与 Tupelo 语言
2.1 数据映射的关键组件
数据映射的一个关键组件是发现可执行的数据映射查询。Tupelo 在假设语义函数发现已成功完成的前提下,从源关系模式 S 到目标关系模式 T 生成有效的映射。该系统通过以下方式发现映射:
- 源模式 S
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



