Gartner发布的2022年重要战略技术趋势,Data Fabric(数据编织)赫然在列,这个概念现在挺火的,国内国外甚至有了相关产品,但数据编织这个概念并不是那么好理解。
假如要跟老板解释这个新概念,我是完全没信心的,虽然Gartner也做了解释,但过于抽象,各种概念乱飞,什么主动元数据,活动元数据,知识图谱等等,各个厂家也是你方唱罢我登场,都在基于自己的产品能力诠释着对数据编织的理解,让更多的人看得云里雾里。
我们首先看看业界是如何定义数据编织的,然后给出我的通俗易懂版本。
1)Gartner
Gartner将Data Fabric定义为包含数据和连接的集成层,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的的数据交付,其能力架构如下:
2)Forrester
Forrester提出了Big Data Fabric的概念,Big Data Fabric的最佳之处在于它能够通过利用动态集成、分布式和多云架构、图形引擎、分布式和持久内存等方面的能力来快速交付应用,其专注于自动化流程集成、转换、准备、管理、安全、治理和编排,以快速启用分析和洞察力,实现业务成功。其能力架构如下:
3)IBM
IBM认为Data Fabric的核心是一个数据管理平台,通过包括发现、治理、管理和编排在内的、全面的集成数据管理功能 ,实现“在正确的时间,从任意位置,将正确的数据与正确的人连接起来,从而全面释放数据价值,加速企业的数字化转型”的目标。Cloud Pak for Data 是IBM开发的具有数据管理、监管和分析功能的Data Fabric平台,如下图。
4)Talend
Talend认为Data Fabric是结合了AI能力的自动化数据集成平台。Talend的Data Fabric平台是由其数据集成平台发展而来,囊括了诸如大数据、机器学习、数据治理和 数据API等产品,将数据集成、数据治理以及数据运营统一在一个平台中,该平台架构示意图如下所示:
5)Denodo
Denodo在Data Fabric的能力定义上,更多的是追从了Forrester的能力定义,包括了数据摄取、处理和持久化、编排、数据发现、数据管理和智能以及数据访问等6类能力,不再赘述,但需要指出的是,其在数据发现