生物信息学工作流中生成数据转换器以辅助服务组合
1. 引言
生物信息学中数据和数据格式的异构性常常导致不同服务的输入和输出不匹配,使得将它们组合成工作流变得困难。目前,生物信息学平台提供了手动编写的临时转换器来减少这些不匹配。
数据格式主要有文本格式和基于 XML 技术的格式。文本格式虽便于人类阅读,但不利于自动处理。许多生物信息学数据分析平台使用文本格式,并提供需手动定义的转换器。据分析,生命科学工作流中超过 30% 的服务用于数据转换。在组合服务时,用户难以找到合适的转换器,且常常需要手动创建新的转换器,这既耗时又容易出错。
基于 XML 技术的格式能独立于工具描述数据类型,例如 BioXSD 为基本生物信息学数据提供了标准表示。然而,仅靠基于 XML 的格式不足以解决数据匹配问题,一方面要匹配使用 XML 和文本格式的服务,另一方面要解决 XML 树之间的 n:m 匹配问题。
以往解决数据不匹配的相关工作虽考虑了数据结构,但未充分利用数据的复合结构,且大多无法生成新的转换器,主要侧重于发现现有的转换器和服务。一些方法使用本体,但存在数据可转换性需手动声明和对复合类型考虑不足的问题。
本文提出系统地检测从输出类型到输入类型的可转换性。可转换性检测依赖于接近 XML Schema 的抽象类型,能在精确考虑数据复合结构的同时对数据进行抽象。主要贡献是定义了可转换性规则,这些规则利用类型的组合、分解、特化和泛化,并自动生成输入和输出类型之间匹配的完整规范,从而生成输入和输出 XML 数据之间的转换器。
2. 类型表示
用于描述数据类型的语言由一组开放的原语和一组固定的类型构造函数定义。从语义上讲,一
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



