支持相互关联的 Web 数据库中的复杂变更
1. 引言
Web 使得信息广泛可得且快速发布,这为数据管理带来了新的潜力和问题。如今,一个新兴问题是独立演变但又相互关联的 Web 数据集合(通常是科学数据)。这些数据集合的相互关联源于维护它们的团队的合作性质。
以生物学研究社区为例,他们快速地产生、使用和存档大量数据。这些社区越来越依赖 Web 进行协作,通过发布和整合实验及研究结果。科学家们常常希望回顾数据演变的方式和原因,以便比较和重新评估之前和当前的结论。这种活动可能需要在时间上前后搜索,跨越多个数据库,并对修改数据的变更语义进行复杂查询。在这些情况下,仅仅查看过去的文档快照和版本之间的差异可能是不够的。
下面是一个简化示例:有两个由生物学研究团队维护的 Web 数据库 A 和 B。数据库 A 是 miRNA(与蛋白质生产相关的 DNA 链的一部分,由链中的起始点和长度定义)的权威来源。数据库 B 包含实验结果,并进行耗时的计算,以估计每个 miRNA 可能的附着点(称为靶点)。数据库 B 依赖数据库 A 获取最新进展,因为 miRNA 知识更新迅速,数据库 A 经常变更以反映这些进展。例如,数据库 A 中的一个 miRNA 可能会更改名称和属性、分裂成两个不同的 miRNA 或与另一个合并形成新的 miRNA。其他数据库(如 B)必须定期检查 A 的内容,并与其同步。研究团队可能需要重复实验或计算以适应 A 中暴露的新事实。这些数据库形成了一个相互依赖但又独立演变的数据网络,其中演变和来源问题密切相关。
此前,对 XML 和半结构化数据的演变和来源已经分别进行了大量工作,但这些方法未能涵盖上述问题的所有方面。本文认为,在演变和来源问题至关重要的协作系统中
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



