(TrustZ翻译注释:传统上Mesh翻译成”网格”,这篇文章中我翻译为”网”,个人感觉网比网格更能表达Mesh的原意)
当前关于如何管理数据架构讨论,有两个主要的思想流派。第一种是传统的集中式的方法--数据湖和仓库,它们在一个便于管理的集中的地方对数据进行编目,并根据所服务组织的规模和需求进行扩展。组织中的每个人都与同一个庞大的数据库环境进行交互,并由一群精明能干的管理员进行管理。虽然这是一个事实证明非常有用的、众所周知的数据架构,但现在,它也开始显示老化的趋势。
第二种流派是分散的数据管理方法--数据网(格)。数据网可以管理与集中式数据湖或仓库相同数量的数据,但数据被分散存储到由使用网格内数据的团队定义的单独数据存储库中。然后,这些分散存储库通过云平台链接在一起,数据仍然可以跨部门和团队共享。与集中式的数据湖仓相比,这样的联邦架构带来一系列的好处。
在本文中,我们将探讨数据网的定义及其在数据所有权和治理中的作用,一些常见的数据网使用场景,以及您的业务使用数据网架构的好处。
什么是数据网?
顾名思义,数据网是由一组分散的小型数据存储组成。但它们仍然被链接在一起(即:交织在一起),根据部门和用途进行专业化划分。它们还可以根据特定功能进行分割,例如:从网中的其他存储库中提取数据。
例如,不像集中的湖仓,每个数据消费者都使用由不可知管理员管理的一个集中式数据库。数据网中的每个数据存储都有特定的所有人,他们非常了解自己的数据。这使得数据收集和存储更加准确、有用,因为这些数据所有人知道什么样的数据让他们的团队更加有价值(TrustZ翻译注释:让离数据最近的人管理他的数据,这其实也有另外的挑战,我们分开来讨论)。
无论数据管理员管理数据湖的能力如何高超,如此大范围,复杂架构的数据湖仓,导致管理员们的工作更多是面向通用化管理——换句话说,他们的优先事项是保持数据湖的正常运行,而不是寻找方法使数据面向成百上千的数据消费者更有用。
值得注意的是,“数据网”一词是指两个相似,但独立的概念:
- “A”或“the”数据网是指上述分散式存储架构。
- 数据网是指创建和管理这种存储结构的策略和过程。
数据网的目标是在去中心化的过程中,成为一种自服务数据平台。换句话说,架构的设置使每个团队都可以根据需要定制他们的数据存储,同时可以轻松、安全地与其他团队共享数据。
数据所有权和数据治理?
假如没有数据所有权和治理过程,任何数据都可能迅速就陷入无政府状态。数据网是一种更容易落地的数据所有权和治理方法,同时使整个数据管理更高效。
数据所有权涉及两个概念:
- 概念一:与CCPA和GDPR等隐私法相关的消费者数据所有权问题。
- 概念二:组织定义数据管理认责体系相关的数据所有权问题,包括:谁负责管理数据、谁负责保护数据、并实施最佳使用策略等。
虽然上述第一概念很重要,但在本文中我们使用第二个概念作为本文讨论的内容。
相比之下,数据所有权定义了个人及其在于数据交互过程的角色和职责,数据治理是一组保障数据正常工作的流程、策略、结构和过程。
数据治理像一个涵盖很多详细功能的大伞——包括:安全、所有权、管理、质量等。-这些功能都在这个大伞之下。治理定义了所有权;所有者执行和塑造治理过程。
数据网中的数据所有权和数据治理
以联邦的形式管理数据所有权和数据治理是数据网的收益之一。数据网中每个存储库,由其数据所有者来定义如何最好地收集、使用、保护和运营数据,而不是像数据湖一样使用统一管理、一招制敌的方法。数据治理仍在整个网络中提供标准,它的灵活性使团队能够在这些标准范围内工作,使他们的数据便于共享并发挥最大价值。
借助于数据网的灵活性和可访问性,每个存储库以及每个存储的希望达成目标都可以快速的满足团队的需要,可以从其他网格中拉去需要的信息。这些都使团队能更好地使用数据,这些数据不仅与他们的工作更相关,而且由于数据所有者专家直接检查数据,数据质量也会更高。
数据网使用场景:
以下是实现数据网(格)的几种方法:
(TrustZ翻译团队注释:这里不是重点数据网可以按照需求任意分割。)
- 360度客户视图:通过从各种来源提取数据,这些数据视图可以产生更多的客户服务洞察力,包括:如何提高客户满意度、投诉解决率,减少平均处理时间,以及制定新的营销策略以提高转化率、追加/交叉销售效率等。
- 物联网(IoT)分析:产品团队可以找到设备使用和消费者习惯的模式、常见的错误捕获和故障排除(以及加快未来修复的文档),并确定改进未来产品版本的方法。
- 超细分市场:可以为营销团队面向特定的受众、特定的区域带来销售机会,生成客户画像,并将其与各种解决方案和销售策略相结合,收集数据,展示这些信息对未来市场活动规划的有效性。无论是面向客户还是内部,分析都可以变得按你所需的那样精细。
数据网的安全优势
与集中式数据仓库相比,使用数据网具有许多优势。以下是一些例子:
- 分布式安全
虽然集中式数据湖有助于将公司的数据保存在一个方便的位置,但它并不是抵御黑客攻击的最安全配置。数据网格分散了风险和数据;如果一个存储库被破坏,故障保护可以隔离威胁,而不会破坏数据网的其他部分。这可以通过各种工具来实现,例如:加密(存储加密和传输加密)、分布式身份验证、跨平台IAM和脱敏等。
- 更清楚地了解安全架构、流程与参与者
如前所述,数据网允许每个存储库拥有专门的数据所有权,同时标准在整个数据库中保持灵活。数据库越大,数据库的有效管理和确保更好的发挥数据价值就越困难。
数据网中的联合存储库允许组织分配较小的团队和专门的数据所有者来管理不同的域,定义谁做什么、在哪里、为什么以及如何做。回答这些问题使安全架构变得更有用,并且可以更好地开发,而不是把所有东西都扔进一个一刀切的箱子里。
数据网的其他优势
更有效地管理数据湖
同样,数据网的分割有助于落实数据标准、简化数据处理、鼓励数据质量,并更有效地分散风险和资源。
节省管理数据访问的时间和资源
这些好处包括,在管理数据及其访问控制时减少时间和资源。鉴于数据网的分散特征,使得数据访问成为一个自然的过程。例如,最小特权原则是按照数据网的自然分布执行的,而不是必须为每个用户制定特定标准,经常更新标准,并花费宝贵的时间试图跟踪数据湖中的每个人。
数据网(Data Mesh)如何适应数据安全平台(DSP)
TrustZ的数据安全平台提供自动数据访问控制,保护敏感数据。TrustZ的自助服务和实时数据访问提供了跨数据库、数据湖和数据仓库实施访问控制的灵活性。
--------------------------------------------------------------------
TrustZ翻译团队简介:
TrustZ团队致力于科普、推广数据治理、数据安全治理相关的技术和管理方法。将最新的国内的数据理论方法推向全球,将海外的思想整理,翻译过来回馈给感兴趣的读者。我们也会独立撰写一些文章,以汇总整理相关知识。沟通群(“数据天下,微信data034申请入群”)