监控和管理数据质量
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Amazon Web Services Glue Data Quality, Data Quality Rules, Anomaly Detection, Data Pipelines, Data Governance, Data Stewards]
导读
数据质量驱动着影响业务成果的决策。成功的企业依赖于可靠和准确的可信数据运营。参加本次会议,了解如何应用Amazon DataZone和Amazon Glue来通过精确的数据转换、数据编目、数据治理和数据血缘,实现数据完整性和一致性,以及如何设置数据质量检查、自动化验证流程和管理元数据。
演讲精华
以下是小编为您整理的本次演讲的精华。
在数据驱动的领域中,企业依赖从其数字资产中获得的洞见来实现繁荣,追求高质量数据已成为一个至关重要的目标,这是做出关键决策、提高运营效率和打造卓越用户体验的基石。这一追求是亚马逊云科技 re:Invent 2024活动的核心主题,行业领导者和专家在这里汇聚一堂,分享见解和经验,为通往数据卓越之路指明方向。
来自Vanguard的Navneet、Shiv Narayan和Andrew Ryfe首先强调了数据质量在现代数据架构中的关键作用。他们介绍了一种全面的数据管理方法,包括四个不同层面:存储、数据治理、数据行动和构建体验。但他们演讲的重点是数据治理层,这是整个数据策略的关键组成部分,由三大基本支柱组成:理解、管理和保护。
为支持这种全面的数据治理方法,演讲者们重点介绍了一套满足现代数据架构多样化需求的亚马逊云科技服务。Amazon Glue是一项关键工具,可用于创建数据目录、ETL管道和利用AI和异常检测的数据质量规则。Navneet强调,亚马逊云科技 Glue Data Quality功能提供了一个无服务器、可扩展且高性能的平台,每月可运行超过1亿个作业,利用DQ等开源框架。他演示了如何在Amazon Glue中选择一个数据集,使用推荐规则引擎获取规则推荐,执行规则,并在Amazon Glue控制台和Amazon Data Zone中可视化结果。
Shiv Narayan深入探讨了技术细节,介绍了专门用于编写数据质量规则的开源语言Data Quality Definition Language (DQDL)。他指导观众编写DQDL规则,展示了表达动态阈值的能力,例如确保行数大于最近10次运行的平均值。此外,Shiv还演示了在DQDL中过滤或应用WHERE子句的功能,从而能够创建复杂的业务数据质量规则,包括嵌套和深层嵌套条件。
异常检测功能是一项杰出的创新,Shiv对此进行了详细展示。该功能从数据统计中学习,识别偏离预期模式的异常,并提供规则推荐以持续提高数据质量。Shiv强调了这种方法的灵活性和可扩展性,使数据工程师能够将基于规则的数据质量检查与机器学习模型的见解相结合,从而增强整体数据质量策略的稳健性。他演示了一个示例,其中他在亚马逊云科技 Glue ETL作业中启用了异常检测,添加了行计数和列计数分析器,并展示了系统如何检测异常、提供描述并根据检测到的模式推荐规则。
Vanguard投资数据系统首席技术顾问Andrew Ryfe分享了他们在构建名为G42的自定义数据平台时的经历,该平台由亚马逊云科技 Glue Data Quality提供支持。Vanguard是一家领先的投资公司,管理着9.9万亿美元的资产,为5000多万投资者服务,他们非常依赖高质量数据来支持投资决策、降低风险并推动分析和机器学习计划。
Andrew解释说,G42使数据管理员能够使用DQDL编写规则,将它们分配给工作流程,并通过直观的界面审查质量结果。该平台在大规模协调数据质量执行,与Amazon Glue无缝集成以进行规则评估和结果处理。这种方法使Vanguard能够维护一个联合的数据质量平台,不强制执行严格的定义,而是允许每个数据系统以符合其独特需求的方式定义和管理质量。
Andrew强调了Vanguard数据生态系统中的一个代表性数据工作流,其中每个椭圆代表管道中的一个阶段,红色星号表示评估数据质量的点。他强调,即使在单个管道的上下文中,数据质量也不是一次性活动,因为在不同阶段都会执行一致性检查、真实性验证和完整性评估。
为确保数据的真实性,Vanguard经常使用参考数据,即用作衡量标准的可信信息,以识别不准确或低质量的数据。例如,他们从多个供应商处收集相同的数据点并进行比较,将差异标记为潜在的质量问题。此外,他们还执行方差检查,特别是对于基金价格等数据,将当天价格与前一天价格进行比较,并根据预定阈值(如10%)评估方差。
Andrew强调了完整性和及时性验证的重要性,突出了Vanguard期望在每个交易日都收到基金和ETF的市场价格。总的来说,Vanguard的数据质量平台需要支持数据质量的这些多维方面,无缝集成到他们复杂的数据管道网络中,这些管道可能数以千计,每天或每月执行。
Vanguard的实施历程揭示了数据质量管理中的一些关键考虑因素。一个重要考虑因素是需要“平台化”数据质量的机制,不仅仅是评估,还包括运营流程、响应工作流和长期统计收集以实现持续改进。这涉及解决诸如在数据质量失败时如何响应、如何收集长期统计数据来衡量质量以及如何围绕数据质量流程构建自定义工作流等问题。
另一个考虑因素围绕着数据的动态性质,数据通常以高度嵌套和混乱的格式到达。Andrew强调将数据拆分为同质子集的重要性,使数据管理员能够为每个数据子集编写相对简单的规则,而不必应对复杂的相互依赖规则网络。这种方法有利于创建嵌套的工作流结构,针对同质数据集执行多个数据质量运行。
此外,Andrew还探讨了在处理低质量数据时,检测与预防之间的二元对立。Vanguard的方法倾向于预防,充当守门员,确保只有高质量数据进入他们的数据中心,在整个组织内分发。这一选择是由于传播低质量数据所带来的高风险,并强调了及时执行数据质量和数据运营团队快速响应的需求。
在整个演讲过程中,演讲者穿插了真实世界的例子和客户案例,以说明他们数据质量策略的实际应用。Shiv分享了一个客户案例,该客户实施了一条规则,确保每日交易总额不超过100万美元的预定阈值。然而,随着业务的增长,阈值变成了1000万美元,当供应商未能发送部分数据时,导致交易总额意外下降到200万美元,但数据质量问题未被发现。这个案例说明了结合基于规则的数据质量检查和异常检测功能来识别偏离预期模式的重要性。
Navneet分享了另一个客户案例,涉及一家医疗保健和生命科学客户需要处理结构化、半结构化和非结构化数据(如医学影像)等多种数据模态。在这种情况下,专门针对特定数据格式的利基解决方案将无法随着数据模态的演变而扩展。亚马逊云科技 Glue Data Quality凭借其对静态和流动数据的支持,成为一种灵活的解决方案,能够处理他们数据的动态性质。
随着演讲接近尾声,演讲者重申了高质量数据产品在当今数据驱动的环境中的关键性。他们强调,追求数据质量不是一次性的努力,而是一个持续的旅程,需要不断监控、适应和改进。亚马逊云科技生态系统及其专门用于数据治理和质量管理的服务和功能套件,成为这一追求的有力助手,使组织能够构建稳健的数据策略,推动明智的决策、卓越的运营和卓越的用户体验。
下面是一些演讲现场的精彩瞬间:
Navneet是一位医疗生命科学领域的领导者,他在reInvent2024会议上介绍了他的团队以及来自Vanguard公司的客户代表Andrew Ryfe,分享了他们的经验和见解。
演讲者强调了数据治理、质量以及构建健全数据平台的重要性,这样团队就可以专注于创新而不是维护和管理。
他强调了高质量数据产品对于改善决策、提高运营效率和优化用户体验的重要性。
亚马逊云科技宣布了针对复杂业务逻辑的高级数据质量规则和过滤功能,这些功能是在数据质量定义语言中实现的。
演讲者强调了开源数据质量引擎DQ的强大和高效,该引擎源自一篇亚马逊科学论文,并被用于亚马逊内部的大型数据湖。
一个客户案例强调了基于规则的数据质量检测的局限性,以及检测数据突然下降或季节性模式的需求。
演讲者强调了通过预防而不是事后检测来主动保护数据的重要性。
总结
在这个富有洞见的演讲中,亚马逊云科技专家Navneet和Shiv以及来自Vanguard的客户Andrew Reif深入探讨了数据质量的关键重要性,以及亚马逊云科技服务如Glue Data Quality和Amazon Data Zone如何帮助组织实现高质量的数据产品。
Navneet首先强调,高质量的数据对于改善决策、提高运营效率和优化用户体验至关重要。他演示了Glue Data Quality如何推荐和执行数据质量规则,以及Data Zone如何向消费者呈现质量信息,从而使他们能够就使用数据产品做出明智决策。
随后,Shiv深入探讨了Data Quality Definition Language (DQDL),这是一种用于编写数据质量规则的开源语言。他展示了DQDL如何集成到ETL管道中,使数据工程师能够在数据处理阶段执行数据质量检查。Shiv还介绍了新的异常检测功能,它结合了基于规则和基于机器学习的方法,实现全面的数据质量监控。
来自Vanguard的Andrew Reif分享了他们构建自定义数据平台G42的经历,该平台由Glue Data Quality提供支持。他强调了数据质量在投资行业中的重要性,以及G42如何使Vanguard的数据管理员能够定义、执行和解释量身定制的数据质量规则。Andrew着重强调了Glue Data Quality提供的可扩展性、自助服务能力和无缝集成,这些都是他们做出选择的关键因素。
总之,演讲者强调了数据质量作为成功的数据驱动计划的基础的重要性,以及亚马逊云科技服务如何通过结合基于规则和机器学习的方法、可扩展执行和数据管理员的自助服务能力,赋予组织实现高质量数据产品的能力。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。