
数据治理
文章平均质量分 93
Alex_81D
修身,赚钱,助人,玩天下
展开
-
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决。最近在使用海豚调度DolphinScheduler的Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线数仓的分层搭建,一直都运行好好的,过了个元旦,这几天突然在数仓做任务时报错原创 2024-01-11 22:45:00 · 1892 阅读 · 0 评论 -
数据治理系列:数据仓库物理分层_数据仓库逻辑分层
数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于支持管理人员的决策。原创 2022-05-07 17:06:11 · 1893 阅读 · 0 评论 -
数据治理系列:数仓建模之数仓主题与主题域
数仓主题是什么?主题域又是什么?二者有什么区别和联系?主题与主题域如何划分?本文可以解答这些问题,原创 2022-11-24 23:45:00 · 4602 阅读 · 0 评论 -
数据治理系列:数据血缘关系
数据治理系列:数据血缘关系。数据血缘关系,从概念来讲,即数据的全生命周期中,数据与数据之间会形成多种多样的关系,这些关系与人类的血缘关系类似,所以被称作数据的血缘,数据血缘是元数据产品的核心能力,但数据血缘是典型的看起来很美好但用起来门槛很高的技术。从数据血缘获得的方法看,自动解析基本是不靠谱的,机器学习方法还处于设想阶段,手工收集及时性,一致性很差,系统跟踪极大依赖于规范化管理能力和工具的集成能力,但却是我比较认可的方法,要建立数据血缘一定要具体场景导向、小处着手。原创 2022-10-14 10:13:13 · 4339 阅读 · 0 评论 -
数据治理系列:数据标准管理
数据治理系列:数据标准管理,数据标准就是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,来对数据定义、分类、格式、编码等标准化管理。通俗地讲,对企业来说,数据标准就是对数据类型、长度、归属部门等定义一套统一的规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。原创 2022-10-14 09:49:15 · 4734 阅读 · 0 评论