
数据治理
文章平均质量分 94
任何一个系统,为了保证其良好地运行下去,一定是需要持续的维护和治理
@SmartSi
Stay Hungry, Stay Foolish
展开
-
智能化、自动化,揭秘抖音集团数据质量前沿探索
目前互联网行业已经进入成熟的大数据应用时代,数据“用起来”的问题已基本得到解决,随之而来的就是数据治理的问题,尤其是其中的数据质量问题。数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。这次分享主要聚焦在数据质量智能化和自动化方面的思考和实践。从应用场景视角来看待数据质量问题,通过自动化、智能化技术让数据质量可以被“观测”,把数据质量融入到研发、协作的流程中。转载 2024-01-14 17:17:34 · 235 阅读 · 0 评论 -
数仓建模平台在网易严选的探索实践
第一个实施步骤是规范指标定义体系的建设。原先的设计流程通常仅仅是很随意地录入到旧的指标管理系统中,经常存在指标含义表述不清、重复设计等问题;此外还存在不少指标只记录在离线文档,口口相传。切分业务域;进行维度设计,生成派生词,也就是业务限定;设计业务过程,包括确定业务流程,设计维度矩阵以及度量;设计原子指标、衍生原子指标,包括关联度量,明确数据类型、汇总方式,公式化地描述衍生原子指标的计算方式;转载 2023-10-29 16:37:51 · 222 阅读 · 0 评论 -
B站数据质量保障体系建设与实践
本文将分享 B 站数据质量保障体系的建设和实践。文章将关注数仓和建模的相关方法论,讲解 B 站数仓平台团队在数仓建设和建模过程中所做的工作,并分享质量保障方面取得的成果。转载 2023-10-28 21:34:09 · 190 阅读 · 0 评论 -
有赞数据降本利器:无用数据下线自动化
基于上面的背景,我们意识到:不计成本的成本治理,是在耍流氓,自动化下线,势在必行。当然,在开展这项工作之初,我们还是很严谨地分析了现状、问题,并且评估了预期的收益。转载 2023-04-12 23:46:42 · 422 阅读 · 0 评论 -
网易互娱数据成本优化治理实践
我们总体的优化方向分为存储和计算两大部分,基于日志的处理流向分不同阶段进行优化。对于存储部分,对互娱数仓总体存储进行占比分析,我们发现ODS层数据占据了全项目的75%的存储空间。因此,我们的首要目标便是优化ODS层的数据存储,分为存储前、存储时、存储后三个子目标进行优化。对于计算部分,由于计算任务众多,我们优先针对耗时较长、逻辑通用性较高的P1指标的计算任务进行优化,分为计算前、计算时两个子目标进行优化。转载 2023-04-12 23:12:35 · 574 阅读 · 0 评论 -
淘系数据模型治理与方案分享
本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。具体将围绕以下四部分展开:模型背景&问题问题分析治理方案(DataWorks智能数据建模)未来规划转载 2023-03-23 23:24:52 · 186 阅读 · 0 评论 -
网易严选数据任务治理实践
在严选数仓建设过程中,会陆续面对新的挑战,这些挑战促进了严选数仓逐渐向更成熟和更好的方向演进,那么2020年严选数仓面对哪些挑战呢?(如:任务及时准确稳定产出、减少报警且报警后可干预、具备任务链路感知能力、降低资损事件发生、重大事故快速恢复等),面对这些挑战又是如何来解决的?本文会以事前>事中>事后的思路和大家一起分享这些建设经验。转载 2023-03-23 00:05:49 · 425 阅读 · 0 评论 -
快手如何打造标准化的数据治理评估体系
本文会分为这四个部分展开介绍,首先是介绍数据治理的背景,其次是快手在开展治理工作时遇到的问题和挑战,再次针对这些问题我们进行了思考和方案的制定,从而根据落地的数据治理的评估体系来开展治理的工作,然后是在落地时,这套数据治理评估体系带来的收益,最后是总结和规划。转载 2023-03-18 14:38:22 · 516 阅读 · 0 评论 -
网易严选离线数仓质量建设实践
做数仓最重要的是什么?一是模型易用性,二是数据质量。模型易用性我们可以通过建模规范、指标管理等方式去实现。而对于数据质量呢?本篇将以严选数仓为例,从建设目标、保障措施、效果评价等几方面探讨数仓质量建设。转载 2023-03-12 23:59:55 · 495 阅读 · 0 评论 -
美团配送数据治理实践
今天,数据资产日益成为企业的核心竞争力。但如果企业在走向数字化过程中遗忘了数据治理,可能再多的投入都会变成一种“徒劳”。今天的文章来自美团配送数据治理团队,他们从数据治理的概念、达成的目标、何时启动数据治理以及如何开展数据治理等几个维度进行阐述,全面、系统地介绍了美团配送技术团队在数据治理过程中所进行的一些探索和实践。转载 2023-02-21 08:30:57 · 794 阅读 · 0 评论 -
美团外卖离线数仓建设实践
美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案。转载 2023-02-19 16:29:27 · 897 阅读 · 1 评论 -
阿里巴巴数据治理平台建设经验
阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展。在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力整合,再到全局数据智能化的时代。如今,大数据平台面临全新的挑战,特别是降本等数据治理需求的不断出现,今天阿里云 DataWorks 团队将其中一些建设经验与大家进行一些分享。转载 2023-02-18 15:57:42 · 1068 阅读 · 0 评论 -
爱奇艺数据中台的数据治理实践
本次分享题目为爱奇艺数据中台的数据治理实践,希望能给大家在数据治理相关的工作中提供参考。主要介绍:爱奇艺数据中台简介;数据治理;生产治理;后续规划转载 2023-02-16 22:38:04 · 600 阅读 · 0 评论 -
网易严选如何打造数仓规范和评价体系
指标定义规范,目的是统一开发 & 产品对指标的定义。通过对原子指标的命名规则、派生指标的命名规则和派生词的定义来完成。指标定义体系,是数据建设体系的基础和内核,为了杜绝产品经理命名引起的歧义,以及后续带来的使用和维护以及解释成本。转载 2022-10-27 08:19:28 · 468 阅读 · 0 评论 -
网易严选数据质量实践
将从三个方面给大家介绍,第一部分,数据质量问题的危害和发生原因;第二部分,如何保障数据质量;第三部分,网易严选数据质量实践转载 2023-02-10 00:02:45 · 210 阅读 · 0 评论 -
网易云音乐数据治理实践
所有要推进的治理项都是要人来治理的。所有的数据、任务、表都需要有责任人对其进行负责,云音乐的所有ods的dump任务是在云村平台上实现的,dump任务的配置都是由云村平台的开发统一配置的,表和任务的责任人都是归在配置任务的开发身上,n个业务几千个任务都是有平台开发来运维管控,表和任务的生命周期管理基本上是没有管制的。第一个是临时表治理,早期临时表面临着存量大,增速快的问题,经过一期的的治理解决了大量存量的问题,增速快的问题后面通过元数据建模产出的报表,推进线上任务改造的方式较好的解决了增速快的问题。转载 2023-02-09 23:11:22 · 261 阅读 · 0 评论 -
网易严选离线数仓治理实践
任何一个系统,为了保证其良好地运行下去,一定是需要持续的维护和治理,数仓也不例外。本文主要分享下今年严选数仓团队从规范、计存、质量、安全几块入手对现有数据资产进行的一些治理的思路和方案。转载 2023-02-08 00:01:03 · 232 阅读 · 0 评论