大数据管理:整合、模型与行业案例
1. 数据管理工具的集成与通信
在不同的场景中,人们会使用各种专门的工具来创建和管理数据。例如,用户可能会用可视化工具分析数据的不一致性,用另一个工具进行模式映射,然后通过众包平台来修正数据。要实现更复杂的数据管理操作,就需要数据能够在不同工具之间无缝流动,同时记录用户的管理决策和数据转换过程。
创建标准化的数据模型和词汇表(如W3C PROV)可以解决部分问题,但数据管理应用程序还需要进一步适应,以捕捉和管理数据来源,并更好地采用现有标准。
2. 数据管理模型
2.1 数据管理的最小信息模型
尽管近年来人们对数据管理领域的认识和理解有所提高,但数据管理过程仍需更规范。采用最小信息模型等方法,并将其应用于工具中,可以为数据管理者提供最低质量标准。例如,在电子科学领域,MIRIAM(模型注释所需的最小信息)就是一个社区层面的努力,旨在规范生物系统定量模型的注释和管理过程。
2.2 纳米出版物的管理
随着学术交流的增加,查找、关联和管理科学陈述变得越来越困难。纳米出版物是带有相关背景的核心科学陈述,旨在为科学交流提供一种综合机制。这是一个新兴的范式,可能为科学和非科学领域的半结构化数据的分布式创建提供途径。
2.3 理论原则和特定领域模型的研究
数据管理模型应从实际应用中抽象出来。自动化数据管理算法的发展依赖于理论模型的定义和对数据管理原则的研究。例如,理解工作流背后的因果机制和数据可移植性的泛化条件等理论模型,能够指导用户生成和表示可在更广泛背景下重用的数据。
超级会员免费看
订阅专栏 解锁全文
931

被折叠的 条评论
为什么被折叠?



