一文读懂:数据之旅的五大支柱

文章介绍了数据之旅的五个关键支柱,包括监控数据流程、堆栈监控、静止数据验证、使用中数据的测试以及设定和管理期望,强调了在数据生命周期中数据质量、效率和可靠性的重要性。DataOps平台如智领云的解决方案支持这些支柱,提供可观测性、自动化测试和流程整合,提升数据运营效率。

c8aa934cde85844a57a39304b9ded1d5.jpeg

“有些人发现,他们可以留下破坏性的反应,变得像地球一样有耐心,不受愤怒或恐惧之火的影响,像柱子一样不动摇,像清澈安静的水池一样不受干扰。”

——释伽牟尼

当你的数据团队因生产错误、抱怨客户和漠不关心的数据提供商而陷入危机时,我们都希望自己能像佛一样坚定不移。最近的调查显示,97%的数据工程师报告说,他们在日常工作中感到倦怠。也许我们可以像佛祖所建议的那样,在那些紧张的情况下冷静下来去“放手”。放手的好处可能是深远的,但正如塞缪尔·弗洛曼所写,找到并解决问题的根源是“生存的快乐”

在客户意识到问题存在之前发现问题有助于团队的幸福感、生产力、客户信任和客户数据的成功。考虑到我们用来从数据中获取价值的复杂分布式系统和数据的多样性,所以需要一个简化的框架。这就是数据之旅。在一个数据驱动创新和增长的时代,数据领导者和工程师了解并监控其数据之旅的各个方面至关重要。成功的关键是能够从宏观和微观层面了解和监控数据、数据工具、管道和基础设施的运行状况、状态和性能。数据之旅的失败使组织损失了数百万美元。

将数据之旅的理念分为五大支柱是组织和共享这一概念的好方法。下表概述:

c359dee315e716a66debaccb6aa04d9e.jpeg

五大数据旅程支柱汇总表

另一种看待这五大支柱的方法是在典型的复杂数据产业的背景下看待它们。你的数据从来源到客户使用可能有四个步骤,或者二十个步骤。然而,每一次数据之旅都跨越了许多“小盒子”,如下图所示。

3e6f730efdb93bd8dadb76b93fb8bcfd.png

作战环境下数据之旅的五大支柱

||  支柱1:跨过台阶

“所有快乐、无错误的数据之旅都是一样的;每一次不快乐的数据之路都以其独特的方式被打破。

——《安娜·卡列尼娜》作者列夫·托尔斯泰

在你的数据之旅中,事情会有所突破。问题是它发生在哪里?据经验,这些问题的根源会随着时间的推移而变化。最初,基础设施不稳定,但后来查看源数据,发现了许多问题。客户开始查看仪表板和模型中的数据,然后发现许多问题。将数据与其他数据集放在一起是另一个错误来源。在数据系统开始使用后,更改将引入更多问题。

关键问题是问题出在哪里。这一支柱强调,需要持续监控数据到达客户的每一步中每个流程的执行情况,以确保操作顺序正确,任务按计划执行,数据本身正确。从这个意义上说,数据之旅提供了有关单个任务的状态和结果的透明度,提供了对操作序列中潜在瓶颈或效率低下的见解,并有助于确保按计划执行任务。考虑Airflow组织的数据管道。

b1e58ef92846cef3e5350aab0d8d1e7b.jpeg

在这种情况下,可观察性包括监控协调器的时间表,并识别潜在的问题,如重叠的作业,这些问题可能会因资源争用而导致瓶颈或延迟。气流作业是否在加载仪表板之前完成?它准时了吗?这里的价值在于提高工艺可靠性。有了这样的可观察性,你可以快速确定流程问题,最大限度地减少停机时间,通知下游,并确保端到端数据旅程更加顺畅、可靠。

||  支柱2:向下堆叠

史莱克:数据之旅就像洋葱。

驴子:它们很臭?

史莱克:不。分层。洋葱有层次,数据之旅有层次。你明白了吗?

驴子:哦,它们有层次。你知道,不是每个人都喜欢洋葱。”

––改编自史莱克电影

监控是数据之旅的另一个支柱,延伸到堆栈的下游。它涉及跟踪关键指标,如系统运行状况指标、性能指标和错误率,并密切检查系统日志以识别异常或错误。此外,成本监控可确保你的数据操作保持在预算范围内,并确保资源得到有效利用。这些要素有助于更全面地了解业务情况,从而实现积极主动的管理和问题缓解。下一步可能包括检查错误消息以识别故障进程,监控服务器CPU使用情况以发现潜在的性能问题,评估磁盘大小以确保有足够的存储容量,以及跟踪运行成本以确保你的操作保持在预算内。

这里的主要价值是对你的技术状况有一个清晰而全面的了解。你可以在问题升级之前主动发现并解决问题,并确保技术堆栈平稳且经济高效地运行。

||  支柱3:静止数据

“数据不会告诉我“你很抱歉”,因为你没有糟糕的数据,我知道你只是很抱歉被抓住了。”

––鞠躬吧,蕾哈娜

在休息时验证数据质量对于任何数据之旅的整体成功都至关重要。使用自动化的数据验证测试,可以确保存储在系统中的数据是准确、完整、一致的,并且与当前问题相关。这一支柱强调了实施彻底的数据验证测试的重要性,以降低基于错误数据的错误分析或决策的风险。

在静止状态下检查数据包括查看语法属性,如新鲜度、分布、卷、模式和沿袭。开始使用强大的数据配置文件在静止时检查数据。然后,以摄取为重点的数据测试可以通过检查传入数据模式、评估数据行计数、加载数据、评估数据量或特定列值来寻找异常的验证。

10b32bb5f66d9c5326f11c6a55f2c7a0.jpeg

在静止状态下检查数据还需要超越数据语法。团队需要基于对其组织有意义的特定领域或业务规则的数据验证测试。这些测试可以依靠历史值来确定数据值是否合理(或在合理范围内)。例如,一个测试可以检查前50名的客户或供应商。他们的价值观相对于历史价值观是出乎意料地或不合理地上升还是下降?可接受的范围是多少?10%还是50%?数据工程师无法做出这些商业判断。他们必须依靠数据管理员或他们的商业客户来“填补”各种数据测试规则的空白。

这里的核心价值是通过数据质量确保信任。通过这些检查,可以及早发现数据问题,确保下游分析和决策基于高质量的数据。

||  支柱4:使用中的数据

“关于你的数据工具的真相令人痛心。也许不如在自行车上丢了一个座位跳得那么厉害,但很疼”。

--弗兰克·德雷宾/莱斯利·尼尔森

监测和测试数据以确保其持续可靠性至关重要。这项行动包括测试数据模型的准确性和相关性,评估数据可视化的有效性,确保数据交付机制以最佳方式运行,并检查数据利用率以确保其达到预期目的。这一支柱强调了在数据旅程的“最后一英里”中需要稳健的测试和评估流程。

这里的价值在于改善最终用户体验。进行这些测试可以确保你的数据产品(如预测模型或可视化)对最终用户来说是准确、相关和有价值的。经过所有的艰苦工作和多个系统的数据才到达客户手中,价值难道不是判断成功的关键吗?

||  支柱5:设定期望值

“高数据旅程期望值是一切的关键。”

––Sam Walton(改编)

数据之旅的最后一个支柱涉及设定和管理期望。数据之旅是对你的数据世界应该如何的期望的集合。当然,这个世界永远不会满足我们的期望。

数据之旅允许你将预期结果与现实进行比较,建立警报机制以在出现差异时通知利益相关者,并分析结果以了解导致结果的原因。它强调需要采取系统的方法来理解和管理与预期结果的偏差。数据问题通常伴随着“爆炸半径”。例如,如果摄入的文件太小,哪些报告、模型和导出会受到影响?数据之旅是一种“过程谱系”,可以帮助你发现问题的全部范围和影响,并通知可能受到影响的人。

08c47eaa593dcb10febbc9f969663f10.jpeg

数据团队与其客户之间建立信任至关重要。你的数据团队在问题发生之前对问题了解得越多,你的客户就越信任你的团队。带有事件警报的数据之旅为建立这种信任提供了桥梁。

结论

“数据之旅的五大支柱”概述了在数据生命周期中跟踪和监控数据的全面方法。首先,它强调了了解数据操作的顺序和结果的重要性,包括定期检查、保持正确的操作顺序和遵守时间表。其次,它强调了监控指标、日志和相关成本的必要性,以确保数据操作的效率和成本效益。第三,它建议通过业务领域测试在静止状态下自动进行数据质量验证,增强数据的完整性和可靠性。第四,支柱主张测试模型、可视化和数据利用率的结果,以验证使用中的数据,确保数据应用程序的有效性。最后,它鼓励根据实际情况设定和比较预期、警报系统和深入分析,以保持稳健和准确的数据环境。

智领云DataOps数据之旅产品

智领云云原生DataOps实现了Data Journeys的五大支柱。从数据到工具,从服务器到代码,再到所有关键维度的测试。它们提供关于开始时间、处理持续时间、测试结果和基础设施事件等指标的实时状态和警报。智领云云原生DataOps通过自动化、面向流程的数据分析方法,将人员、流程和技术进行结合,极大简化数据管道并提高数据运营效率。

37feb1228af83a39f2f07b479ec9ff13.png

9411208bcd68dec1665d8283f610830e.png

DataOps可观测性提供了数据旅程的抽象、期望、警报和分析。DataOps 测试生成提供与DataOps 可观测共享的数据库内数据测试结果。最后,DataOps 自动化提供了与DataOps 可观测性共享的工具、模型和API级测试。

- FIN -       

33e613228d32fe902a7d895571b7d628.png

更多精彩推

👇点击阅读原文了解更多详情

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值