orange大数据技术探索者
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Paimon学习记录
根据官网介绍去快速了解 paimon 是用来设计做什么,可以做什么,对比与其他数据湖有什么特点,如何使用。原创 2023-09-18 17:16:20 · 311 阅读 · 0 评论 -
数据仓库建模规范
数据仓库建模规范原创 2023-01-13 14:31:12 · 714 阅读 · 0 评论 -
数据埋点的一些问题和想法
公司当前埋点现状的一些记录和想法原创 2022-06-28 15:11:55 · 261 阅读 · 0 评论 -
数据安全性
目录1. 数据安全包含哪些方面1.1 数据备份与恢复1.2 垃圾回收箱设计1.3 精细化的权限管理1.4 操作审计机制1.5 开发和生产集群物理隔离1. 数据安全包含哪些方面大数据方面的数据安全性主要以下三个方面如何解决数据误删除问题 如何解决敏感数据泄露问题 如何解决开发和生产物理隔离问题1.1 数据备份与恢复HDFS 的数据备份,和冷备集群其实,Hadoop 在 3.x 就正式引入了 EC 存储,它是一种基于纠删码实现的数据容错机制,通过将数据进原创 2022-02-21 15:03:50 · 5631 阅读 · 0 评论 -
元数据中心
目录元数据什么是元数据中心为什么要有元数据中心当前开源或者收费的元数据中心产品元数据什么是元数据中心元数据划为三类:数据字典,主要是数据的结构信息,比如表名、注释,字段,字段注释和类型,产出任务 数据血缘,上下游依赖关系,也就是一个表直接通过哪些表加工而来的,主要用来做表异常对下游影响分析和上游表故障溯源 数据特征,主要是数据的属性信息,表的存储空间、访问次数、主题域、数仓分层为什么要有元数据中心数据中台的构建,需要确保全局指标的业务口径一致,要把原先口径不一致的、原创 2022-01-15 10:45:00 · 549 阅读 · 0 评论 -
数据指标管理
目录1.统一指标1.1为什么要统一指标1.2.如何统一指标1.2.1 规范化定义指标1.2.2 指标太多,如何管理指标字典1.统一指标1.1为什么要统一指标为了解决指标混乱现状:相同指标名称,口径定义不同 相同口径,指标名称不一样 不同限定词,描述相同事实过程的两个指标,相同事实部分口径不一致 指标口径描述不清晰或者描述错误 指标命名不规范,难于理解 指标数据来源和计算逻辑不清晰1.2.如何统一指标1.2.1 规范化定义指标面向主题域管理...原创 2022-01-16 06:30:00 · 950 阅读 · 0 评论 -
数据中台概念
数据中台处理的事情和架构原创 2022-06-28 19:45:00 · 332 阅读 · 0 评论 -
数据成本优化
目录1 数据成本不断升高2 如何精细化成本管理2.1 全局资产盘点2.2 成本核算2.3查找问题2.4治理优化2.5治理效果评估1 数据成本不断升高数据上线容易下线难任务不敢轻易下线,但又存在不需要的任务低价值的数据应用消耗了大量的资源有些表甚至宽表占用资源,但下游却没什么重要产出烟囱式的开发模式模型设计不合理,表不能复用,对表重复开发加工数据倾斜浪费大量计算资源数据未设置...原创 2022-02-14 14:40:08 · 1094 阅读 · 0 评论 -
中台数据质量
目录1.什么是数据质量,我们遇到了什么问题2.数据质量的问题和根源2.1业务源系统变更2.2 数据开发任务变更2.3 物理资源不足或者基础设施不稳定3.如何提高数据质量3.1 添加稽核校验任务3.2 建立全链路监控3.3 智能预警,确保任务按时产出3.4 规范化管理制度4.如何衡量数据质量1.什么是数据质量,我们遇到了什么问题报表数据出错,无人发现数据出现问题,导致推荐等使用数据不准确发现数据问题,但是数据问题源头排查耗时长,导致数据长时间不可原创 2022-02-10 15:37:30 · 1814 阅读 · 0 评论 -
实时数据仓库
实时数据仓库的一些分层和分层需要处理的事情,以及数据流向原创 2022-06-28 11:32:51 · 1500 阅读 · 0 评论 -
离线数据仓库建模
建模如何衡量数据模型可复用,完善且规范完善度看 DWD 层是否完善,最好看 ODS 层有多少表被 DWS/ADS/DM 层引用,也就是跨层引用率DWS/ADS/DM 层完善度,主要是汇总数据的完善度,可以满足多少需求,当然肯定做不到100%,但是覆盖的越多,查询速度和使用成本就越低复用度模型设计,它应该是交织的发散型结构,可以通过元数据中心的数据血缘图观察可以用模型引用系数作为指标,衡量数据中台模型设计的复用度。引用系数越高,说明数仓的复用性越好。模型引用系数原创 2022-02-22 14:45:02 · 642 阅读 · 0 评论