可扩展数据空间的主权云技术:数据管理与协作的新范式
1. 数据产品化管理
将数据当作产品来管理是一种高级理念,需要有专门的团队负责这个“数据产品”。该团队不仅要保障数据的质量和可用性,还需确保数据能被周边生态系统(可能是单个组织)轻松发现和使用。
数据发现是关键特性之一,可通过元数据或机器可读的自我描述等机制实现。这些机制能从质量、可用性、领域特异性等方面描述底层数据,帮助业务用户识别符合自身需求的信息。
为确保数据能无阻碍地被使用,可引入补充技术,如GraphQL,但这些技术可能带来新挑战,因此在将其作为技术战略的主要构建模块之前,需进行仔细评估。
2. 数据空间的概念与需求
在跨组织的数据协作中,信任模型是缺失的重要元素。当数据离开组织的控制范围,数据提供者无法再对数据进行治理,只能依赖使用方遵守协议、许可和合同。
数据空间是一种解决方案,它通过将控制范围扩展到请求数据的目的地,在虚拟覆盖网络上创建信任边界,实现对共享数据的控制。国际数据空间协会(IDSA)的参考架构模型可填补这一空白,有助于创建一个广泛采用的、活跃多元的数据生态系统。
在数据空间内,数据可附加策略,由平台组件(如连接器)强制执行,使数据提供者能控制数据的生命周期并决定数据的使用方式。对于技术无法提供足够信任基础的情况,还可通过合同协议完善治理模型。
3. 大数据与数据湖:早期数据空间的发展
大数据的核心思想是将数据整合到一处以提取价值,这些整合的数据存储库及其周边生态系统常被称为数据湖。数据湖与数据空间的理念有相似之处,都试图整合现有数据存储中的信息。
然而,随着时间推移,数据量和速度不断增加,且数据常分散在独立的数据孤岛中,缺乏共同的治理机制和数据模型,这使得整合这些不同数据源变得极为复杂。同时,数字化和跨企业服务的需求带来了更多挑战,许多组织甚至不清楚自身拥有哪些数据、数据来源及质量如何。
为管理组织内的数据,数据仓库曾尝试演变为“企业信息存储”,但数据量和速度的增加导致数据摄取和转换效率低下。大数据虽带来了增加可用数据范围的期望,但许多大数据项目因缺乏合理的架构决策而失败。据2015 - 2017年的分析报告,60% - 85%的大数据项目未能成功。
为支持数据湖架构,引入了数据池的概念。数据先被摄取到数据湖,经过处理后存入数据池。但这种架构仍无法满足特定的消费用例,如高CRUD性能或特定知识领域的数据关系建模。因此,需要一个“多语言”的数据环境,包括关系型、文档型、图形数据库等不同类型的数据存储。
最终,许多数据湖项目所有者意识到,原始的数据仓库架构包含了很多优秀概念,数据湖更适合作为补充而非替代。数据湖的范围通常局限于组织内部,而数据空间则设想了一个更广泛的跨组织协作生态系统。
以下是大数据与数据湖发展过程中的挑战对比表格:
|挑战类型|具体挑战|
| ---- | ---- |
|数据整合|数据分散在独立孤岛,缺乏共同治理和数据模型|
|数据管理|组织不清楚数据情况,数据摄取和转换效率低|
|用例满足|无法满足特定消费用例,如高CRUD性能和数据关系建模|
下面是大数据与数据湖发展过程的mermaid流程图:
graph LR
A[大数据理念] --> B[数据湖概念]
B --> C[数据整合挑战]
C --> D[数据管理问题]
D --> E[用例满足困难]
E --> F[数据池引入]
F --> G[多语言数据环境需求]
G --> H[数据仓库与数据湖互补]
4. 数据空间战略的“引力与扩张”
在数据空间的发展中,过于强调标准化可能带来负面影响。从数据湖时代的经验可知,多语言解决方案能为企业带来高价值,尽管其中一些方案可能具有一定的专有性。
在复杂用例中,特定的硬件需求(如边缘组件或传感器阵列)、功能和非功能需求(如可扩展性或特定安全模式)以及高度优化的云原生数据仓库服务等专用实现具有巨大潜力,甚至能克服传统IT系统的局限性。
数据空间生态系统中,参与者通过数据服务共享或消费数据。这些服务可提供数据访问、封装访问的应用程序或标准化数据交换的操作实现。将这些服务嵌入更复杂的数据生态系统,可引入智能服务,支持特定领域的用例。
引力元素在数据空间中具有重要作用,它不仅能减少网络流量,还能像传统数据仓库一样整合数据,实现更全面的数据分析。数据空间应将双向通信作为核心设计目标,通过反馈分析结果,促进数据空间及其驱动的领域用例的逐步发展。
智能服务将在未来的数据空间中发挥重要作用,Kubernetes等基础平台服务可为其提供支持。这些服务的可移植性增加了组织的主权,但在追求可移植性的过程中,可能会牺牲部分功能。因此,组织需要在高效数字化、创新速度和主权要求之间找到平衡。
以下是数据空间战略中引力与扩张的优势列表:
- 引力元素:
- 减少网络流量
- 整合数据,实现全面分析
- 促进双向通信,推动数据空间发展
- 扩张元素:
- 引入多语言解决方案,增加企业价值
- 支持特定领域用例,实现创新应用
- 提供智能服务,提升数据处理能力
下面是数据空间战略中引力与扩张关系的mermaid流程图:
graph LR
A[数据空间战略] --> B[引力元素]
A --> C[扩张元素]
B --> D[减少网络流量]
B --> E[整合数据分析]
B --> F[双向通信发展]
C --> G[多语言解决方案]
C --> H[特定领域用例]
C --> I[智能服务提供]
5. 可移植性与互操作性:完美互补
数据和服务的可移植性固然重要,但组织需要在高效数字化、创新速度与强大的主权要求之间找到平衡。因此,互操作性这一在企业界广为人知的概念变得至关重要。
可移植性仍可作为核心架构原则,但应采用更灵活的方法,允许使用虽不完全可移植但具有高度互操作性的补充解决方案。这种思路与为特定任务选择最佳解决方案的自由选择理念相关。
在大型企业 IT 环境中,要求重新实现一切以适应既定框架的方法并不适用。大多数组织已在某些技术上进行了投资,包括技术、许可证和技能等方面,他们希望能够继续使用已被证明对实现业务使命有价值的解决方案。这些公司仍然可以从参与数据空间中受益,无论是符合 Gaia - X 标准的欧洲数据空间还是国际数据空间。
下面是一个展示可移植性和互操作性在数据空间中关系的表格:
|特性|描述|对数据空间的影响|
| ---- | ---- | ---- |
|可移植性|允许数据交换、遵循数据空间特定语义以及符合定义的 API 集、安全措施和协议|增加组织主权,便于在不同平台间移动服务|
|互操作性|使不同解决方案能够协同工作,即使不完全可移植|支持多语言解决方案,满足复杂用例需求|
以下是可移植性与互操作性在数据空间中结合的 mermaid 流程图:
graph LR
A[数据空间] --> B[可移植性]
A --> C[互操作性]
B --> D[数据交换]
B --> E[语义遵循]
B --> F[API 与安全合规]
C --> G[不同解决方案协同]
C --> H[支持多语言方案]
C --> I[满足复杂用例]
在数据空间中,有一个概念模型展示了如何将可移植性和互操作性结合起来。数据空间有两个“引力中心”,每个中心由核心(通常是共享数据存储)和相关的(智能)数据服务组成。用户通过定义的接口访问这些服务,并将其与特定用例实现相连接。引力中心的服务应具有高度的标准化和可移植性,而用例实现的外围客户特定部分则可相对宽松。
随着数据空间的增长,集中治理变得困难,因此需要引入分布式治理机制。IDS 连接器实现可以帮助管理数据空间参与者的端点,解决非核心服务生态系统参与者信任度下降的问题,确保只有授权参与者可以访问服务,并始终执行定义的政策。
6. 通过特定解决方案的连接器实现互操作性
IDS 提供了一个参考架构模型,以透明和标准化的方式满足数据和数据服务的策略驱动治理(访问和使用控制)需求。
为了在参与数据空间协作场景时,既能使用客户或云特定组件,又能满足数据主权要求,需要提供客户或特定解决方案的 IDS 连接器实现。例如,在某些情况下,使用具有扩展机器学习功能的基于云的数据仓库是有意义的,它允许业务用户通过熟悉的 SQL 接口利用机器学习的力量。
无论这种适配器是由客户、合作伙伴还是供应商实现,都需要根据底层用例的适用性和需求进行适当评估。
下面是 IDS 连接器在数据空间治理中的作用列表:
- 管理数据空间参与者端点,确保只有授权参与者可访问服务。
- 执行定义的政策,保障数据使用符合规定。
- 解决非核心服务生态系统参与者信任度问题,增强数据空间的安全性和可靠性。
以下是 IDS 连接器实现互操作性的 mermaid 流程图:
graph LR
A[数据空间协作] --> B[IDS 参考架构]
B --> C[客户或特定解决方案连接器]
C --> D[评估适用性]
D --> E[实现互操作性]
E --> F[保障数据主权]
7. 未来展望
在未来几年,预计组织将开发新的创新用例和产品,将跨组织数据共享作为核心原则。这将导致对网络和数据中心容量的更高需求,鉴于气候变化挑战和可持续发展目标,高效的数据中心运营和绿色 IT 承诺将变得更加重要。
能源高效的云基础设施并非唯一相关的挑战。通过从可重用服务和工件构建大型应用程序和服务组合来实现数字用例的想法,与数据空间的愿景有许多共同之处。组织需要不断探索和创新,以应对数据空间发展带来的各种挑战,充分发挥数据的价值,推动业务的持续增长和创新。
总之,可扩展数据空间的主权云技术为数据管理和协作提供了新的范式,通过数据产品化管理、数据空间的构建、平衡可移植性与互操作性等方面的努力,有望实现更高效、更安全、更具创新性的数据生态系统。
超级会员免费看
1253

被折叠的 条评论
为什么被折叠?



