现实世界的成功:基于Iceberg的统一分析架构
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Iceberg, Open Data Lakehouse, Unified Analytics Architecture, Iceberg Table Format, Data Mesh, Data Fabric]
导读
了解为什么全球领导者依赖在亚马逊云科技上运行的Cloudera来实现大规模数据、分析和人工智能。了解是什么帮助公司创造最大的商业价值和更高的运营效率。听取关于新功能、最佳实践以及在实现真实世界云成功之路上所学到的经验教训。特别是,了解多个行业的领先公司如何使用Apache Iceberg将数据整合到一个灵活、现代的架构中,在亚马逊云科技上的Cloudera上运行。探索Iceberg如何帮助他们转变和简化跨模型的数据管理、安全性和血缘关系。本演示由亚马逊云科技合作伙伴Cloudera为您带来。
演讲精华
以下是小编为您整理的本次演讲的精华。
感谢您今天的加入。我的名字是David Dickman,我为Cloudera工作。我领导着我们的营销团队,负责高级分析和人工智能,因此我们一直在与许多组织合作,帮助他们现代化管理和理解数据的方式,并将数据转化为商业价值。
我今天的演讲是关于现实世界中的成功案例,利用Iceberg统一分析架构。在开始之前,我想介绍一下当前市场上推动人们关注数据管理、分析并为人工智能做准备的一些情况。
当前,人们对生成式人工智能进行了大量投资。每个会议都提到它,但当我们观察这一领域的发展时,我们发现许多人都在关注诸如对话界面、自然语言处理、聊天机器人以及对安全数据提供简单问题的简单答复等方面。这些并不是我们区分商业价值的关键所在,但它们是一个很好的开端。这些包括营销、内容和个性化等领域。这还包括医疗保健领域,如主动护理治疗和自动预先授权等,有助于推进流程的这类事物。
然而,人工智能的下一波浪潮,以及生成式人工智能真正带来回报并帮助我们在参与的市场中区分组织的领域,将来自于在您最敏感和安全的数据上工作的丰富可信代理。因为这些数据是您所拥有的,是您组织的资产。这些数据的商业价值使您在所处领域中与他人有所区别,如果您能比任何人都更好地利用和理解这些数据,您就将在吸引客户和留住客户方面跃居领先地位。
例如,拥有丰富的咨询代理共同为您提供深度定制的体验。我们称之为礼宾体验,客户将与您的公司进行信任交换。这里是一些我的个人信息,以换取您提供的更高价值的商品和服务。
这也有助于获得更好的医疗保健。我们的一个客户实际上正在使用生命科学数据和生成式人工智能来挖掘数以千计的医学图像,为罕见癌症制定新的治疗方案,因为目前还没有实际研究存在,而生成式人工智能预测使用的治疗这些癌症的效果比他们自己能想到的要好得多。
这些不仅可以改善我们的业务,还可以帮助挽救生命。但为了为下一波生成式人工智能做好准备,我们需要确保以可信的方式为所有数据做好使用准备。
没有人完全信任将所有数据交给人工智能,这是明智的。而且没有人知道他们所有数据的存放位置,这就是我们试图帮助客户解决的问题,因为我们能以可信的方式为人工智能提供越多数据,就能从中获得越多价值。
为了帮助我们做到这一点,已经出现了三种架构模式:数据网格、数据织物和数据湖仓。
当我们观察这些在市场上是如何形成的时候,我们发现数据网格实际上是关注您的数据策略的,它更多地关注组织而不是技术。事实上,我们认为您不能只是购买并安装一个数据网格,就能在组织中运行数据网格。您必须考虑谁是相关人员,并重新思考如何组织数据,不是以表级别共享数据,而是将数据视为一种产品。
数据织物是使用技术实施该策略,因此数据网格是“为什么”,数据织物是“如何”。这完全是关于以一种基本上可以隐藏我们在另一个领域如何管理数据的复杂性的方式,对数据资产进行技术编排。
如果您有财务领域、销售领域、服务领域和制造领域,即使它们使用完全不同的技术、完全不同的存储和管理数据方式,只要我们以抽象但完全有用的方式共享数据,这无关紧要。
数据织物旨在帮助我们协调跨技术的数据共享,而数据湖仓则是实际进行数据管理的地方。这是事情真正落实的地方。这是我们看到那些领域从业人员和日常数据从业人员在其给定领域内与数据互动的地方。
这是一种将我们所有有用的数据(结构化、半结构化和非结构化数据)放在一起、对数据进行操作、准备使用、保护和管理的方式。数据湖仓范式正在快速发展,因为它允许我们消除许多孤岛。
许多组织都有数据湖和数据仓库,并开始将它们合并为数据湖仓,这是一种新兴趋势。
我们看到这种情况出现的原因是,在传统的数据湖数据仓库环境中,我们发现了跨领域成功重用信息的七大障碍。
第一个障碍是,当我们将所有不同的数据集(结构化数据、非结构化数据、实时数据)聚合在一起时,所有这些数据最终都会被分割到两个不同的环境中,使用完全不同的工具集。
出现的第二个障碍是围绕着无法考虑结构化数据的非结构化数据,同样,我们看到的第三个障碍是围绕着结构化数据。结构化数据将拥有完全不同的工作流程和完全不同的数据生命周期。
数据仓库中这种结构良好、精心策划的数据,是为了能够只计数一次,不遗漏任何计数。这是我们用来依赖向政府缴纳税款的信息,您不能说“大致如此,有一定误差范围”。而是要准确说明“我欠你多少”。在许多不同的数据仓库类型数据的使用案例中,您都必须正确无误。
但非结构化和半结构化数据可以为我们讲述更广阔的故事。这是我们寻找模式和相关性的地方。在这里,误差范围是可以接受的。例如,如果我们观察品牌在社交媒体上的情绪,如果我说您在社交媒体上的品牌正面响应率为85%,正负5%,无论是80%、85%还是90%,您都会做出相同的业务决策,但我们从这种不精确的数据中获得了有意义的商业价值。
将这些数据分别存放在不同的地方并分别处理,在我们要获取包括统计分析和结构化分析在内的增强型仪表板时,就会带来额外的挑战。
这时我们引入数据科学家,开始处理这些非结构化数据,发现隐藏的模式、相关性和含义,然后我们可以将其添加到我们的仪表板中。这又是方程式中的另一个步骤。
但接下来我们遇到的障碍是,如何引入一些我们现有的最先进技术,如人工智能、机器学习等。这往往又是另一个独立于我们所做的所有其他工作的过程,最终才能获得那些可以融入人工智能的预测性仪表板或其他智能。
与此同时,我们正在了解我们的数据。我们正在了解数据的新知识,了解它对我们的业务有何用处。但如果我们没有闭环反馈,这是第七个障碍,将所有这些新的元数据汇总并存储以供下一次迭代使用,我们就不得不一次又一次地重复这个过程。
让我们进入开放数据湖仓的世界。我们要做的第一件事是使用相同的工具将所有这些数据引入湖中。您的传统数据仓库使用提取、转换、加载(ETL),因此我从源头提取数据,进行一些转换,然后将其加载到仓库中以备使用。
我们在这里讨论的是转向提取、加载、转换。以大规模方式引入所有数据,将其放入数据湖中 - 顺便说一下,我特意使用了复数形式“数据湖”。这些数据湖是您拥有的所有不同存储,它们可以是S3存储桶、ADLS或本地存储,但仍被视为一个统一的数据湖。
我们并不是在谈论将所有数据物理上集中存放在一个存储位置,而是在逻辑上将所有这些数据视为一个数据状态。我们使用相同的工具将所有这些数据引入,然后进行转换 - 提取、加载、再转换 - 因此我们仍然可以获得那种精确度,满足像向政府缴税这样的数据仓库用例需求。
所有这一切都在同一技术环境中完成,并且由于我们将半结构化、非结构化数据与结构化数据放在一起,在进行这些转换以获取精心策划的数据的同时,我们也可以使用相同的转换来准备非结构化和半结构化数据,以增强这些仪表板。
在这个相同的环境中,我们还可以开始训练模型并将人工智能纳入整个方程式。因此,数据科学家现在是整个团队的一部分,而不是在角落里单独进行的事情。每个人都在整个生命周期中进行协作,使用相同的存储范式和相同的工具集,为您提供一个统一的结果。
最后,你会直接获得一个具有预测分析功能且融入了人工智能的增强型仪表板。这极大地简化了你的架构,并优化了整个数据生命周期的使用。你可以显著减少需要运行的ETL引擎的数量。你可以显著减少需要进行的不同类型的存储和存储转换,并且可以减少需要进行的数据跳转或移动的数量,最终去重复存储以略微不同的方式转换为多种不同类型分析的相同信息。
由Iceberg驱动的开放数据湖房允许我们将所有不同的工具集中在一起,这些工具对于将要协作处理数据的不同从业人员来说是必需的,并让他们都在完全相同类型的数据上工作。所有这些引擎,如开源引擎Spark、开源引擎Trino、开源引擎Impala和Hive,都将运行。我们正在研究Kafka、Flink、NiFi都在Iceberg上运行。所有引擎都可以读写Iceberg,不仅仅是相同类型的数据。现在,多个引擎可以同时操作完全相同的数据文件。
当然,随着这种新的表格式在企业中的扩散,以及将各种其他数据与之结合,最大的挑战之一是如何维护安全性和治理?为此,我们看到了一个单一层面,一个联合目录和元存储,汇集了关于数据如何移动、如何存储、如何治理的所有信息,但我们也捕获了业务描述,如:这些数据是什么意思?它的策划级别是什么?它有什么用途?其他人喜欢它吗?谁可以成为数据产品?无论数据存储在哪里,所有这些都可以集中起来。
这就是由Iceberg驱动的开放数据湖房架构,而Iceberg打破的就是我们一直看到的这种单体架构,即使在向云的转移过程中,我们也看到了计算和存储的分离。这很好,因为它允许我们独立扩展计算和存储,使我们摆脱了内部设备和单体架构的一些障碍。但我们仍然有这种观念,即存在某种具有自己的元存储并对自己的存储具有可见性的计算引擎。但是Iceberg打破了这一范式。一种来自Apache的名为Iceberg的表格式允许所有不同的引擎同时在相同的表上工作,无论它们存储在何处。通过在数据上使用通用语言,我们获得了在操作数据和数据所在位置之间的真正多对多关系,这真正使我们能够以更有创意的方式使用这些数据。
数据数据仓库非常单一,但开放的数据湖房旨在摆脱这些障碍和限制。我多次提到了Iceberg。这里有多少人听说过Apache Iceberg?有几个人举手。
Apache Iceberg是一个由Netflix发起的开源表格式项目,得到了许多其他供应商的贡献。我们有Apple、LinkedIn、Adobe、Netflix仍在参与。我们是参与者,亚马逊云科技也是参与者。我们今天在市场上看到Iceberg成为一种现象的原因是,当像Snowflake这样的组织在其最新的财务报表中提到Iceberg一词超过20次时,这告诉我们市场正在要求一种方式来摆脱始终与特定供应商合作来共享我们的数据的束缚,不受该供应商的引擎、基础设施和其他可能限制您充分利用数据为业务创造最佳价值的选择的约束。
Iceberg已经成为一种标准。我们看到像Databricks收购Tabular以获得Iceberg这样的组织,我们最近也与Snowflake直接合作,因为当我们使Iceberg成为Cloudera的标准时,他们也将Iceberg作为一种表格式来考虑,而不仅仅是他们自己的表格式,这样它就可以与我们正确地协同工作,我们也在与亚马逊云科技进行类似的操作,因为最终这将成为云中大型数据集的事实标准。
它之所以能做到这一点,是因为它具有许多出色的功能,可以让您的数据湖具备构建新的开放湖房架构所需的所有数据仓库般的功能,而不是两个世界的折中,而真正成为两个世界的精华。
它符合SQL行为和正确性,具有完全的ACID合规性,这意味着您拥有事务保证,因此当多个引擎同时操作数据时,数据不会损坏。但我们也有能力做诸如模式演化之类的事情。对于任何曾在关系数据库中工作过的人来说,在数据库中添加一列或更改数据类型并不难。您通常不会有太大的开销,但在像我们在云存储和数据湖中看到的基于文件的系统中,由于添加了一列而必须重新创建所有文件,并重新训练元存储以获取这些新信息并与将要查看该数据的所有其他引擎共享,这可能会非常昂贵。但是使用Iceberg,这一过程变得非常简单。您可以动态更改模式,所有新创建的数据集将使用新模式,它还记住旧数据的样子。因此,您不必在表结构发生变化时承受维护表的代价。
这里有多少人从第三方源摄取数据,而这些结构会随意变化?这就是为什么这很重要的原因之一,因为它有助于跟上隐藏分区和分区演化。这也是Iceberg的一大优势,因为有了这个功能,当我们需要改变存储的分区方式时,分区存储基本上是一种使正确的文件包含正确的数据子集以实现快速检索的奇特方式,但随着数据集的增长和业务需求的变化,您可能会发现“我没有很好地为明天的用例进行分区”。好吧,我们可以简单地改变分区机制。所有新数据将使用新机制,旧数据保留在旧机制中——再次,您不必承受更改表分区的巨大昂贵维护成本。
多功能分析——这是真正的魔力所在。对于那些想要了解一些技术细节的人来说,Iceberg所做的是,不是将关于所有这些文件的含义以及它们如何相互关联以给你跨越数百万个文件的表格感的所有信息都存储在一起,而是将这些信息与文件本身放在一起。所以所有元存储,这是访问这种数据的瓶颈,需要存储在元存储中的所有元数据都是——这是表的开始,然后文件系统知道整个表架构中的所有文件。
很酷的一点是,其他引擎可以与这些文件交互,而无需通过元存储的瓶颈,这意味着它们不必像以前的范例那样频繁地等待,或者我们不必担心这些更改的影响,因为我们具有ACID保证,所以我们不必在对数据进行整个大型操作时阻止整个用户,这意味着我们真正可以共享存储中的相同数据,而不必对其进行复制和复制以及其他技巧来确保其工作,从而创建可能导致错误和额外成本的数据重复。
另一个不错的技巧是这种时间旅行,因为元数据与所有文件一起存储,所以每次进行更改时,我们都可以对其进行快照。这是一个元数据快照。它不会给元存储带来负担,所以我们可以整天这样做,也不会使我们的存储空间爆炸,这意味着与Iceberg表的每次交互都会被记住,您可以在给定时间戳运行查询。它将找到属于该时间戳的快照,并如实重新创建该时间点的数据样子。
这里有多少人从事受监管行业的合规性工作?这是一个很好的工具,因为我们以前这样做的方式是创建这些表的副本,并说“好的,那是11月的表。那就是当时数据的样子”,因为您不能仅仅依赖数据记录本身的日期范围,因为它们以后可能会被修改,不再代表当时的数据样子。使用Iceberg,这一过程是自动化的,并且由于它是一个文件系统,我们仍然会遇到——这里有多少人听说过小文件问题?Iceberg仍然会有这个问题,但由于元数据的处理方式,其影响要比我们过去看到的小得多。但是我们仍然有能力进行压缩和清理,以及所有其他清理我们不再使用的快照和小文件的操作,这一切都可以通过智能自动化来提高这些表的整体效率。
当您在云中为从数据中获取业务价值而付出计算周期的费用时,您将使用越来越少的计算周期,因为这些表已经过优化。Iceberg具有所有这些出色的功能,最近还在不断创新
Iceberg现在提供表格式的分支和标记功能,这允许我们创建不同的数据集,并根据使用的标记访问不同的数据集 - 对于诸如记住模型训练数据集和其他需要在不同时间使用不同数据版本的体验非常有用。我们最常看到这种用法是在开发/测试场景中。不建议用于生产环境的物化视图。
任何从事传统分析的人都知道在结构化SQL编程中进行多路连接的痛苦。物化视图允许我们预先构建许多这样的连接,从而可以大大减少从Iceberg数据集检索信息所需的时间,而无需更改我们定义的结构。正是这种良好的组织使得数据易于理解和共享。我们不必为了提高性能而改变组织结构。我们可以使用物化视图作为帮助我们实现这一目标的工具。
变更数据捕获不仅允许我们保持这些表随时更新到传入的实时数据,因为我们所处理的大部分是客户的实时问题。变更数据捕获还可用于复制,在这种情况下,我们需要将数据与不同环境中的不同计算引擎共存,并且绝对的低延迟至关重要。
我们接下来关注Iceberg的重点是性能、互操作性和协作。请记住,我们所追求的理想状态是可共享的、安全可信的数据产品,以便我们可以将数据提供给围绕人工智能的现代架构。
我们首先关注的是Cloudera Lakehouse优化器,这是一种智能工具,可在适当时间对您的Iceberg数据状态运行,并对正确的数据集执行压缩和清理功能。因此,您不会浪费时间优化低效用的表,也不会在高峰时间运行而影响系统性能,但仍然确保您从Iceberg表中获得最佳性能,从而不会为您的云计算付出过高的代价。
互操作性方面,在Iceberg世界中出现了一种新的创新。这源自Apache Iceberg项目本身,称为REST目录。REST目录允许供应商提供对其管理的Iceberg表的接口,而另一个引擎可以访问这些表,而无需另一个引擎作为代理来促进通信,也无需您重新创建metadata来识别和理解Iceberg表及其在单一托管环境之外的安全性。这使我们能够使用Cloudera的数据平台为您的整个Iceberg数据资产提供单一安全性,并自由共享该数据与来自亚马逊云科技、Databricks或未来的其他引擎,如Snowflake等,因为我们最终想要实现的是随处使用信息的能力。
这就是Trino引擎和Trino与Iceberg的全面集成所在,这也是我们正在赞助的一个项目,以允许我们能够使用联合功能在数据所在位置以最低的延迟进行操作,因此我们不必复制和移动所有数据来获得良好的性能,并且我们可以在数据产生的地方使用数据,而无需移动和复制并保持其安全性。
在协作方面,这是我们真正实现人机界面的地方,以便我们可以访问某种仪表板、数据目录,找到我们喜欢的数据,然后直接使用它。数据目录、数据清理室等,我们需要能够以独立于数据最初产生和使用的技术方式共享数据,以便我们能够真正将信息用于其后续目的。
在我们的测试中,Lakehouse优化器可节省高达69%的成本,因此我们发现与未经管理的Iceberg表相比,优化的Iceberg表的计算成本可节省69%。与让经过培训的人员监控表并做出何时优化的人工决策相比,自动化这一过程将很快为您带来投资回报。
REST目录是我们所谈论的一种能够在两个方向上共享Iceberg数据的方式,而无需通过诸如JDBC ODBC接口和运行不同引擎。因为请记住,我们之前讨论过的整个理念是,您不是通过要求我的引擎访问我的元存储来获取数据。您是直接通过询问我的元存储是否可以直接计算来获取数据。这真正让我们能够在计算和存储分离的不同级别插入。
我们还简要讨论了Lakehouse如何参与更大的架构世界,从而使我们能够创建数据产品,这是从我们起步的地方开始的。我们通过拥有单一事实版本的单体传统环境来解决这个问题,这些环境非常僵化、非常有限、非常昂贵。但是,云的出现使我们能够做一些事情,比如简单地获取一些云资源并完成工作,给予了您巨大的灵活性,我们一度享受着这种灵活性,但我们注意到,由于分散和到处都是,我们存在一些挑战,存在安全风险,并且会产生额外的成本。我们很容易在一个组织中以多种方式在多个地方对同一数据做同样的事情。这是相当浪费的。
结构和网格的理念是在不扼杀云带来的自由和灵活性的情况下,遏制这种混乱。这就是一个典型的数据资产的样子。我们正在处理组织,我知道我们在这里与亚马逊云科技是非常亲密的合作伙伴。对于云,我们的大多数客户都选择了亚马逊云科技。许多组织需要处理多个云 - 也有Azure,也有Google - 这是很常见的,事实上,在行业中,我们看到的一种常见做法是有多个供应商提供相同的服务。
我们经常看到一些组织可能在亚马逊云科技上运行制造或营销,在Azure上运行销售,研发部门在Google Cloud上工作,我们仍然拥有本地数据。许多组织仍然拥有本地数据中心,并可能在一段时间内继续拥有。
将它们全部联系在一起的是,如果我们将每个环境视为开放数据湖房节点,那么将结构连接在一起的就是数据管理本身的单一视图、您的单一安全视图、所有环境共享的一个安全配置文件、联合所有技术引擎的元存储的一个metadata目录。将所有这些信息汇总在一起。因此,您可以获得自动化的线性、自动化的遗产、自动化的可追溯性,这有助于您满足治理和合规性需求。我们还可以对所有这些信息提供数据可观测性,因为即使我们不管理该信息,如果我们了解它如何参与生态系统,我们也可以告诉您该数据的质量、该数据的一致性。如果在该数据中引入了错误,这将有助于您提高产品质量。
而且,通过将整个资产视为一个整体,我们可以轻松做一些事情,比如设置联合和复制,以连接分散的数据源并减少延迟。由数据目录和metadata为中心的这种全球企业数据网格,通过结构的技术实现,将为我们提供对资产的可见性和控制,而不会降低云的自由需求。
我们刚刚发布了一篇博客,这是我们最近发布的我最喜欢的博客之一。我们的产品主管发表了一篇名为“数据领域战争已经结束,元数据领域战争已经开始”的博客,因为我们在这里看到的是,通过使用诸如Iceberg之类的东西来释放数据,使其脱离供应商的引擎作为控制和访问的模式,metadata现在成为控制和访问的模式,拥有良好metadata策略的组织将能够比没有这种策略的组织以更安全可靠的方式使用更多数据。
我们在开始时讨论过的数据网格,数据网格是一种理念,而不是您购买的产品。它不是参考架构,也不是技术规范,而且它也不限于IT部门。它是一种商业理念,是一组原则,是将人置于技术之前,将业务理解和价值置于实施之前,最终是一种组织文化转变。
它基于四个核心原则,首先是分散所有权。数据的所有者是最接近该数据最多使用的领域的人。这些人最了解该数据 - 财务人员了解财务数据,制造人员了解来自物联网的遥测数据。这些组织最了解他们的数据。
但第二个原则是,既然我们已经为每个领域赋予了对其数据的责任,我们知道跨领域数据共享是必需的,因此我们不会简单地放弃自己的表格,让你自己去解决。相反,我们将把这些数据视为一种产品。如果我们将其视为一种实体产品,我们会关注什么?我们会关注其质量、功能、版本、完整性以及服务保证。如果我要依赖你的数据产品来运营我的部门,而你保证它有99.9%的正常运行时间,我会对这种产品感到满意。
如果你能保证这些信息具有一定的质量、完整性和准确性,我就会依赖它们。现在我们拥有了数据产品,另一个原则是我应该能够随时随地共享它们。我不应该去其他地方寻找数据,并弄清楚我是否可以使用它们。
我希望能够自助访问这些数据基础设施,这最终需要对安全性和治理进行单点控制,因为我应该能够访问市场,如果我的角色有权限,就可以看到我被允许使用的数据集。它们需要易于查找、易于使用。我应该能够在目录中搜索看起来与我试图解决的分析问题相关的信息。
但为了做到这一点,我们需要确保我们已经对治理进行了联合,以便我们能够获得所有这些内容的单一中央视图,从而实现我们所需的控制和安全性,以确保合规和安全。这种数据目录、联合治理需要具备数据可观察性和自动化功能。这就是我们能够为数据设置规则的地方。看起来像这样的数据将被标记,个人身份信息将被从那些不应该访问它的人那里删除,而不会限制对可能有用的其他数据的访问。
自动分类数据、自动标记,能够对数据集进行禁止或对数据的某些子集进行掩码,这些可以基于时间、基于位置,无论我们需要什么来确保我们设置了正确的防护措施。
我喜欢这一点的原因是,当我们真正思考时,更好的质量安全性实际上不会限制数据流动,而是增加了你的自由度,因为如果你在这方面做了充分的功课,你就可以放心地让更多人自助访问更多数据,而不用担心将错误的数据提供给错误的人,从而违反法规或更糟的是,导致数据泄露而陷入麻烦。
这成为了企业数据织物的支柱,能够拥有单一的元数据源将所有内容整合在一起,对所有数据进行单一的安全加密、质量加密(如有必要),能够控制数据在整个企业内的流动,并能够将所有治理规则集中在一个地方。这就是数据管理发挥重要作用的地方。
然后,管理你的数据产品的数据目录需要能够为你提供所有相关的精美可视化效果,能够发现和查找数据,能够对数据进行点赞,能够在数据所有者、创建者和数据用户之间进行评论和对话,能够为数据打分。所有这些围绕企业数据使用的社交动态都应该成为其中的一部分,而不仅仅是冰冷的数学计算。能够看到数据的传承和血统,能够查看每个属性的质量将是使用这些数据的重要部分。
你需要基于角色的访问控制,你需要表、列、文件或任何粒度层次的灵活性,以增加你可以共享的数据量而无需透露全部信息。
我们正在看到的最后一个重大趋势是,自然语言将成为与我们的数据交互的新方式。如果我们想要处理所有数据,我们将受到技术界面的限制。这里有多少人是SQL专家?没有多少人举手,所以这限制了能够实现数据民主化。
但现在,通过诸如针对我们数据的聊天机器人、自然语言到SQL的生成等功能,以及人工智能和自然语言处理为我们带来的能力,任何人都可以使用人机界面来探索数据、访问数据并从数据中获取商业价值,而无需通过技术界面。
我们正在与一家大型制造公司合作。他们有一个房间里全是非常聪明的材料科学博士。他们不会说SQL,他们与数据工程师合作,通常的情况是“嘿,我想要一些关于材料研究的数据。你能帮我整理一下那些数据吗?”然后他们会带着一个数据集回来,说“就是这个吗?”他们会说“不,不是这个。再试一次,再试一次,再试一次。啊,终于,这就是我想要的数据。为我建立一个永久的数据管道,将这些数据导入这个仪表板。”
但想象一下,如果我们给他们一个工具,让他们自己进行数据探索。虽然他们可能仍然没有技能来创建永久的数据管道,但他们会非常快速地知道自己想要什么数据,让数据工程团队为他们优化,而不是浪费大量周期来回反复,有时仅仅为了确定适合研究的正确数据就需要几个月的时间。所以现在他们在几分钟内就能获取到原本需要几个月才能获取的数据,并立即将这些数据用于商业价值。
到目前为止,我们讨论的是开放式数据湖房是织物和网格中的基本组件节点,我们将在其上执行所有数据操作。但我们将在不同的云和本地环境中组合这些湖房,跨越单一的织物,允许我们在整个企业内自由理解和自由流动信息。
如果我们以数据即产品、数据去中心化、联合治理的理念来构建这一切,我们将应用数据网格的原则到我们的业务和文化中,真正获得数据民主化的优势,从而增加我们可以为新用例提供的数据量,并增加我们对可用于人工智能的数据的信任度,让企业从中获益。
以下是我们在行业中的一些实际案例。我们看到Iceberg本身在整合湖房、湖和房屋为单一的湖房架构方面发挥了重大作用。即使在云端,我们也看到所有这些云数据仓库都有自己的引擎和存储,ETL流向每一个仓库,大量第三方数据仓库、第三方ETL、第三方存储,以及在所有这些之上运行的BI引擎为我们提供业务价值。
但当我们转向以Iceberg为中心的数据资产时,我们将Iceberg置于所有这些存储之上,这样我们就不必将数据移出它诞生的地方。我们只需将其视为单一的Iceberg数据资产。我们进行提取、加载、转换,并极大简化了所有这些ETL、ELT、数据流和流媒体,这些数据原本是自发地流向每个仓库,现在则成为流程的一个统一部分。
通过使用单一的数据流和流媒体源以及单一的数据工程源,我们可以极大简化架构,大幅减少数据重复,并消除了管理我们分析状态的大量复杂性,同时仍然可以自由使用任何引擎,因此熟悉自己喜欢的BI工具、SQL引擎的用户仍然可以继续使用,无需任何更改,无需重写业务应用程序、仪表板或报告。
我们还与一家公司合作,这是加拿大的哈利法克斯机场管理局。这个机场有趣的地方在于,它是加拿大第十大国际机场,这里有多少人来自加拿大?有几个人举手。一个笑话是,加拿大没有那么多机场,所以它们都不算大。但它仍然是一个国际机场,仍然必须遵守作为国际机场所需遵守的所有规则、法规和标准,但它的IT团队非常小。
因此,虽然他们正在构建一个环境,可以查看来自不同数据源的所有数据,但通过能够使用Cloudera和Iceberg,他们能够使用亚马逊云科技中的数据和他们本地数据中心中的数据,后者是由于监管要求仍然需要保留一定数量的数据。他们已经让所有数据从业者都能使用自己喜欢的工具访问这些数据,并且能够比一些尚未进行湖房转换的大型机场更快更智能地构建用例。你猜他们今天有多少人在IT部门运营这个环境?一个人。
当我们讨论大型企业面临的挑战时,我们真正讨论的并不是成为一家大型企业,而是随着公司规模的扩大,数据挑战的复杂性也在增加,但我们真正讨论的是一种以单一统一的方式来处理复杂数据环境挑战并简化复杂性管理的方式。
这是一个营销组织的例子,他们需要引入关于5000万客户的信息,以及他们为这些客户跟踪的2000多种不同属性。他们想要做的是与客户建立更好、更亲密的关系。谁会喜欢收到随机的垃圾短信呢?没有人喜欢,但如果收到一个你真正想要的优惠,你会说“天哪,我真的很想要这个。”
我过去常常开玩笑说,我希望在商场里看到一家叫做“Dave的东西”的商店,当我进去时,我想要的东西总是摆放在商店的正中央。我只需拿起它就可以走了,所以供应商与我作为客户的关系越亲密越好。在这种情况下,它是一家电信公司,我与他们建立良好的关系,他们能够为我提供有意义和有用的信息,而不会打扰我。
因此,这就是他们的目标。他们的目标是通过一个全渠道营销系统来实现这一点。他们正在使用一个可扩展的框架,并正在查看一个消息库。他们正在查看所有这些信息,来自10个业务线的遥测数据。
哦,实际上不是,这是一家银行——储蓄账户、住房贷款、信用卡,他们现在有17,000种不同类型的“nudge”变体。通过这种程度的个性化和细化,他们能够以有意义和有用的方式为客户提供信息,让客户感觉“你真的了解我”,而不会打扰他们,这对客户来说是一个巨大的好处。你可以从你的供应商那里获得更好的服务,对银行来说也是一个巨大的好处,因为他们能够留住客户并发展业务。
另一个例子真的只是关于节省成本——控制单体环境的成本,主要是在内部数据中心,与此相关的成本,以及这些单体环境中资源的浪费。这里有多少人曾经不得不为最高峰值构建这些系统,因为有些日子你需要这种能力,然后你会在一年或一个月的其余时间里有70-80%的空闲时间?因此,我们希望减少这种空闲时间,减少能源成本,减少金钱成本。
因此,这是迁移到纯云环境。这位客户将所有内容都迁移到了亚马逊云科技上的Cloudera,并将Iceberg作为首选的表格式,将所有数据迁移过去。因此,他们不仅能够将50,000个表从所有这些单体系统中复制过来,并将其减少到只需管理10,000个表——数据集减少了5倍。这已经是一个巨大的减轻了,但同时,通过能够利用容器化服务和自动扩展,能够优化资源利用并消除浪费。这大大降低了总体拥有成本。这花了大约6个月的时间,将8000个工作负载迁移到亚马逊云科技上运行,并帮助节省了大量资金。
这是一个我们合作的组织,他们正在朝着数据产品的概念迈进。他们仍然维护着内部数据中心,并将大量工作负载迁移到亚马逊云科技。对于他们的这一旅程,一个非常有用的能力是使用S3设备来现代化内部数据。你也可以在现有硬件上使用Cloudera的分布式Ozone。Ozone是一个符合S3的对象存储,但其思想是在内部和云中运行相同类型的存储,并将Iceberg放入其中。因此,我在两个位置都拥有相同的数据格式,相同的数据,相同的功能,并在两个位置运行相同的服务,具有一个安全性、一个治理、一个可追溯性、一个视图。现在,这些数据可以作为数据产品共享。
你不必全部迁移到云端就可以与云业务用例共享数据产品。你可以访问内部数据并在云中使用它,或者从内部访问云数据,或者在延迟绝对必须最小化的情况下使用数据复制和共存。
他们从中获得的是更好地分析他们所谓的“客户健康”计划。这是我们之前谈到的电信公司。他们想要寻找他们所谓的“沉默投诉”。他们希望能够看到客户的行为暗示他们对供应商的满意度正在下降,并能够主动为他们提供个性化的优惠和个性化的服务,以保持他们的忠诚度。这确实困扰着许多零售类组织——并非每个即将从你的服务或产品中流失的客户都会表达出想要流失的投诉。因此,如果你能以其他方式检测到这一点,你就可以成为一个更好的供应商,并与客户建立更好的关系。
这里是一家我们合作的生命科学数据聚合商。他们这个项目的主要目标是整合来自患者可穿戴设备的实时遥测数据,将这些数据与他们在类似试验中的所有研发数据、医学影像、结构化和非结构化数据一起流式传输——其中一些诞生于Google Cloud,一些诞生于亚马逊云科技,一些诞生于内部数据中心。因此,这是大规模的多云和混合云的融合。
这样做的根本目的是让更多的患者能够在家中进行更多康复。有多少人在生病时喜欢住在医院里?如果你感觉不舒服,最好的地方是在家里。我们在医学研究中也发现,能够在家中的患者康复会更好,感染医院传染病的风险也会降低。因此,让你回家,但能够像在医院一样对你进行监控——这是一件好事。
但他们还在做的另一件事是,不仅让医院能够为在家康复的患者提供更充分的护理,他们还能够汇总所有这些数据,并将其反馈给医学研发界,他们正在努力缩短医学试验的时间,更快地得到“是”或“不是”的答复。同时也缩短了研发救生医疗设备和救生药物和疫苗所需的时间和成本。顺便说一句,这家机构在帮助我们找到COVID疫苗方面发挥了重要作用。他们的生命科学数据聚合是其中的一部分。
另一家组织正在朝着数据产品的概念迈进。他们正在引入来自运营系统的实时运营数据,将其与非结构化和半结构化数据相结合,并且还将他们已经投入生产的一些传统仪表板和报告的输出纳入其中。他们没有迁移这些,只是将这些输出包括在这个项目中,减少了他们在从数据湖迁移到数据湖房之前需要的数据孤岛数量。
他们利用内部部署来安全合规地完全控制数据,同时利用亚马逊云科技云端的灵活性和企业级性能——一个目录,共享这些数据产品使他们能够首先使用自己选择的工具,并通过制作独立于技术的数据产品来避免供应商锁定。你不被迫使用某个供应商的解决方案来利用这些数据产品。因此,他们的业务用户和数据社区可以继续使用他们熟悉的产品和解决方案,而后台则变得更加有组织和高效。
即使在NoSQL环境中,我们也有一个组织在使用HBase,这是地球上最大的NoSQL数据库之一。这里有人还记得HBase吗?这是一种如果它不坏,就不要修复的情况。但他们每天要摄入2.8-2.9PB的数据。他们需要一种更灵活的方式来做到这一点。因此,将存储迁移到Iceberg,将计算迁移到亚马逊云科技云,将数据迁移到Amazon S3,他们能够使用Cloudera数据仓库进行结构化分析,并继续使用Cloudera运营数据库进行NoSQL,两者协同工作,每年节省8%的管理这种大规模数据摄入的成本,为他们节省了大量资金,提供了一个更加灵活和可适应的环境。而且,由于他们能够使用不同的亚马逊云科技区域和这些区域中的Amazon S3存储桶,他们还能够通过与亚马逊云科技的合作自动实现按区域的法规平衡。
这就把我带到了演讲的结尾。我们今天讨论了很多内容——为什么数据湖房和Iceberg在我们现代架构中是一个重要现象,如何通过转移到数据湖房、采用织物和网格功能、以新的方式看待元数据,将使我们能够从当前状态过渡到一种受控和治理的数据状态,让我们能够信任更多数据用于更多用例,并为下一波生成式AI做好准备,在那里我们将进入代理式AI,应用于我们最宝贵的数据、我们最专有的数据,这些数据使我们与竞争对手区分开来,让我们能够构建行业第一或行业最佳的AI用例示例,推动我们的企业向前发展。因为我们最终想要做的是将AI用于善意,为客户带来更多价值,为企业带来更多价值,在健康科学的情况下,甚至可能拯救生命。
总而言之,来自Cloudera的演讲者David Dickman介绍了由Apache Iceberg驱动的开放数据湖房架构,作为跨不同数据类型和领域进行分析的统一解决方案。他强调了Iceberg如何解决数据管理中的关键挑战,实现AI/ML的无缝集成,并提供ACID合规性、模式演化和时间旅行等功能,以满足监管需求。
他提供了真实世界的示例,展示了组织如何将数据仓库整合到集中的Iceberg资产中、构建个性化营销系统、从本地单体迁移到云端、跨混合环境共享数据产品以及为生命科学和医学研究优化数据管道。
他还讨论了数据网格架构模式的原则,强调了分散所有权、将数据视为产品、联合治理以及实现自助式数据基础设施的重要性。Dickman倡导利用数据目录、自然语言界面和强大的元数据策略来推动数据民主化,并增加新兴行业中生成式AI用例的数据信任度。
下面是一些演讲现场的精彩瞬间:
演讲者介绍了使用Iceberg统一分析架构实现现实世界成功的主题,阐述了推动组织重新评估其数据管理和分析策略以实现AI就绪的市场趋势。
Iceberg是一种开放的表格式,它实现了计算引擎和数据存储之间的多对多关系,打破了单体架构,允许更加创新的数据使用方式。
Iceberg简化了模式演化,允许您在不重新创建文件或重新训练元存储的情况下动态更改模式,同时保持与现有数据的兼容性。
Iceberg是一种开放的表格式,它自动化了数据快照以满足监管合规性要求,并通过压缩和清理有效地处理了小文件问题,从而提高了整体表性能。
一家公司将其每天2.9PB的大规模数据摄取工作负载从HBase迁移到亚马逊云科技,利用Iceberg、S3和Cloudera Data Warehouse,实现了8%的年度成本节约和更好的灵活性。
演讲者强调了拥抱“湖屋”和Iceberg架构、利用元数据以及为下一波生成式AI做好准备以获得竞争优势、提供更好价值乃至挽救生命的重要性。
总结
在这场引人入胜的演讲中,Cloudera公司的营销主管David Dickman深入探讨了由Apache Iceberg驱动的开放数据湖房架构的变革力量。他阐述了一个令人信服的愿景,组织可以在这种架构下充分利用其数据的潜力,为下一波生成式人工智能铺平道路,并释放前所未有的商业价值。
Dickman首先强调了当前的格局,生成式人工智能主要集中在对话界面和自然语言处理上,但真正的差异化优势在于利用组织最敏感和安全的数据资产。他强调了为人工智能应用程序准备可信赖使用的数据的必要性,从而凸显了数据就绪的重要性。
他演讲的核心围绕开放数据湖房架构展开,这种架构结合了数据湖和数据仓库的优点。这种范式转变使组织能够在统一的环境中摄取和转换所有类型的结构化和非结构化数据。由开源表格式Apache Iceberg提供支持,该架构允许多个引擎同时操作相同的数据,打破了单体障碍,促进了互操作性。
Dickman赞扬了Iceberg的诸多优点,包括其ACID合规性、模式演化能力、分区演化和时间旅行功能。这些特性使组织能够高效管理数据、降低成本并保持合规性。他还介绍了Cloudera Lakehouse Optimizer,这是一种智能优化Iceberg表的工具,可节省高达69%的成本。
转向更广阔的企业数据格局,Dickman倡导采用数据网格和数据织物原则。这些概念促进了去中心化的数据所有权、将数据视为产品,并通过联合治理和数据可观测性实现自助式访问。通过采纳这些理念,组织可以释放数据民主化的真正潜力,并增加人工智能应用程序对数据的信任度。
在整个演讲过程中,Dickman分享了来自制造业、航空业、营销、银行业和生命科学等各个行业的真实成功案例。这些例子说明了开放数据湖房架构结合Iceberg和数据网格原则如何使组织能够简化运营、降低成本、提升客户体验,甚至加速医学研究和药物开发。
最后,Dickman描绘了一幅令人信服的未来蓝图,自然语言界面将成为与数据交互的新方式,进一步推动数据民主化,使任何人都能够在没有技术障碍的情况下提取商业价值。他强调了拥抱这些现代架构和原则的重要性,以善用人工智能的力量,为客户、企业乃至挽救生命带来更大价值。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。