
一、Data Fabric 与数据虚拟化简介
在正式介绍 Data Fabric 之前,我想先回顾一下我们现有的数据仓库体系面临的问题。当提到数据仓库时,许多从事数据工作的人可能会想到 ETL(抽取、转换、加载)和一些技术工具,如 Hive、Hadoop 和 Spark。我在过去十多年一直在数据仓库领域工作,与我类似的老一辈大数据从业者可能都有相似的经验。
我们遇到了哪些问题呢?归纳起来,不论是数据的生产者还是消费者,甚至是老板,似乎没有人对数据仓库感到满意。为什么呢?
从数据的生产者的角度来看,即 ETL 工程师,他们每天都面临大量不同的需求,包括数据分析、数据提取等等。一些需求甚至每天都在变化,因此他们不得不疲于奔命,工作非常繁重,成就感很低。
从数据的消费者的角度来看,例如分析师和运营人员,他们可能对数仓更加不满。因为提需求的时候,要么是没有排期,要么是需要清洗数据,要么是数据还没有导入到数仓中,导致需求要花很长时间才能被满足。
老板的角度又不同,他们将数据仓库视为一个物理仓库,用来存储数据。然而,与物理仓库不同的是,数据仓库是"只进不出"的,这意味着数据不会被删除。这导致了一个问题,即数据仓库的规模会不断增长,仓库管理员(ETL 工程师)的数量也在不断增长,但从业务价值的角度来看,数据仓库并没有产生相应的价值增长,尤其是在业务迅速增长的情况下。因此,老板认为数据仓库的投入产出比非常低。
伴随着数据应用场景和数据使用人数的快速增长,企业在数据安全、用户隐私保护和监管合规上的挑战也越来越大,企业不得不在“业务敏捷用数”和“数据安全合规”之间寻找“油门”和“刹车”的协同方案,而当前并没有成熟的方案可以兼顾两端。
总结来说,传统的数据仓库面临三个主要挑战:高成本、合规问题和效率问题。
但这并不是说 Data Fabric 是传统数仓的代替者,而是补充者。在接下来的案例中,我会具体探讨通过 Data Fabric 和虚拟化技术是如何解决这些挑战的。
Gartner 连续三年将 Data Fabric 列为 “十大数据和分析技术趋势”之一,甚至是“2022 年十大战略技术趋势”之首。Data Fabric 出现的一个重要原因在于:即使一个企业有成熟的数据仓库和数据湖,依然无法将所有的数据集中到一个地方给用户使用,Data Fabric 的概念顺势而生。
Data Fabric 翻译成中文叫“数据编织”,它是一种数据管理架构思想,包含了数据虚拟化、Data Ops、主动元数据等多种技术与概念,其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。
数据虚拟化技术是 Data Fabric 的基石技术之一,我们这次主要围绕它来展开。
数据虚拟化技术是一种允许用户通过一个统一的接口访问分散在不同数据源中的数据的技术。它通过将多个数据源(如数据库、文件系统、云存储等)的数据

本文介绍了DataFabric如何通过数据虚拟化技术解决传统数据仓库的高成本、合规问题和效率问题。数据虚拟化使得用户能无缝访问多源异构数据,降低成本并提高敏捷性。逻辑数仓和RP技术的结合推动了数据虚拟化的实际应用,如券商案例中显著提升了交付效率和成本效益。
最低0.47元/天 解锁文章
1727





