加速数据价值实现:从批处理迁移到流处理
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Data Processing Evolution, Continuous Data Production, Diverse Data Sources, Faster Insights Generation, Artificial Intelligence Enablement]
导读
不断增长的业务需求要求将实时洞察融入传统用例中,这正在推动数据转换从批处理向流处理发展。从游戏到点击流再到生成式AI用例,如今的批量分析工作负载需要高吞吐量、低延迟和简化的摄取机制,以实现实时洞察和可视化。参加本次会议,听取专家们的意见,了解如何成功地从批处理迁移到流处理,使用亚马逊云科技流服务,这些服务可在各种服务之间提供可扩展的集成和实时功能,如用于实时数据仓库分析和ELT管道的Amazon Redshift。
演讲精华
以下是小编为您整理的本次演讲的精华。
在数据处理领域,演进历程可谓是一段了不起的旅程,跨越了数千年。自古以来,人类和企业都一直在精心收集数据,最早的记录可追溯到公元前3000年的古代美索不达米亚,当时人们在粘土板上精心雕刻着复杂的铭文。当时的商业运营步伐缓慢,局限于一天9至5点的工作时间,收集的数据也是一丝不苟地刻在这些粘土画布上。
随着现代企业的兴起和蓬勃发展,数据产生的速度呈指数级增长。从粘土板到纸质账本和笔记本,标志着一个重大的进步。然而,直到20世纪,比特和字节的时代才真正到来,彻底改变了数据的产生、分析和处理方式。
21世纪见证了数据处理的前所未有的爆炸式增长,这得益于互联网的无处不在、智能手机的出现以及电子商务的兴起。企业的业务已经突破了物理边界的限制,全年365天、全天24小时运转。这种范式转变导致了持续不断的数据产生,来源多种多样、格式多模态,且往往没有预定义的结构。
因此,企业必须应对处理多样化数据的挑战,这与过去结构化的数据形成了鲜明对比。此外,这些数据正在源源不断地产生,反映了现代商业运营的全天候、全球化特征。有趣的是,越来越多的企业内部应用程序都在争相获取这些数据,这源于对通过客户互动和内部流程捕获的最新信息的无穷渴求。
随着企业越来越多地依赖数据驱动,对数据的需求也在不断演变。尽管每周、每日或每月的报告需求仍然是商业智能的基石,但新的需求也已经出现。以加速的速度产生洞见变得至关重要,这基于一种信念:更快的洞见能带来更好的决策。
以一家生产客户互动数据的企业为例,立即处理还是延迟数天处理,将产生深远的影响。此外,人工智能和机器学习已经成为现代企业数据战略的支柱。一家公司通过这些尖端技术实现差异化的能力,与其数据质量和有效处理数据的能力密不可分,包括生成式人工智能。
将现代数据景观(以连续和多样化的数据处理为特征)与当代数据驱动型企业的需求(需要产生更快的洞见、继续支持BI工具,并为机器学习、人工智能和生成式人工智能等能力提供支持)相对比,一个关键问题浮现出来:我们一直在使用的工具是否足够?
批处理(Batch)处理能够在固定的时间间隔内捕获数据快照并进行处理,将信息传递给下游系统、应用程序、仪表板或报告工具,一直是商业世界的坚实支柱。虽然批处理继续为业务报告和BI工具(按固定节奏运行)提供支持,但在产生更快的洞见以及为人工智能和机器学习工具提供支持这两个支柱方面,其局限性就显现出来了。
举个例子,假设一家工厂希望监控其安装设备的传感器读数,以主动检测并缓解潜在问题。假设有四台发动机产生大量温度、振动和速度等读数,这些读数被收集和处理。
如果采用批处理系统来收集、聚合和处理这些数据,它将每小时在整点时进行一次快照并处理这些批次。现在,假设维护经理需要实时获取这些数据以检测缺陷并主动解决。
在批处理系统中,数据将被摄入本地数据库,每小时会将一个快照发送到下游数据库,查询和仪表板工具可以访问和可视化这些读数。然而,如果目标是为缺陷检测和主动缓解生成洞见,批处理方法就无法满足要求。
假设在时间t=1时,某台机器产生了一个异常读数。系统会在几秒钟的网络延迟后,在时间t=2摄入这些数据。但是,由于批处理每小时运行一次,而数据是在上一批次之后不久摄入的,因此要等待大约50分钟才能进行下一次批处理周期。处理将在时间t=3开始,几秒钟或几分钟后(取决于批量大小),数据将在时间t=4可用,几乎是在最初异常读数之后16分钟。
在这种情况下,如果维护经理的目标是检测缺陷并主动缓解,批处理方法将无法满足他们的期望。很明显,批处理无法满足现代商业运营中产生更快洞见的关键需求。
批处理的局限性不仅仅体现在产生更快洞见方面。以一家在线旅行社的聊天机器人为例,它旨在帮助用户更高效地查找航班、酒店和租车信息。在这种情况下,聊天机器人由一个大型语言模型驱动,能够解释用户查询并提供相关响应。但是,为了提供准确和最新的信息,聊天机器人需要实时上下文,如航班价格、可用性以及酒店和租车的类似数据。
如果每小时使用批处理收集这些信息并更