SX-开发调优-数据治理-技术
文章平均质量分 80
数据治理
TTXS123456789ABC
基础要扎实!方案设计,baseline落地,发现问题,解决问题,方案优化(利他+敬畏生产)。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(数仓建设学习路线8)数据基建-数据质量
3数据开发:建设相应dwd数据模型进行明细数据存放,并做维度退化,可按照规则种类开设二级业务域(模型为二级分区,分区1为ds(业务日期),分区2为rule (规则)),内容包括规则id规则名称,监控字段1-5,来源表,规则是否触发,规则是否加白,规则上线/变更/下线日期,规则状态,负责人等等。概念:数据质量,意如其名,就是数据的准确性,他是数据仓库的基石,控制好数据质量,是做数据仓库基本要求,也使得下游业务方对数据用的放心。1.现状梳理:对目前现有数据问题,存在隐患的问题进行收集归类,制作规则维表。原创 2024-06-06 15:19:14 · 1045 阅读 · 0 评论 -
(数仓建设学习路线10)数据基建-数据指标体系
如果下游血缘存在不是自己的表/报表,需要在相关业务群里说一下/找到下游表owner/报表owner发送通知,让下游owner进行修改,如联系不上需要向owner的leader说明问题,并且让下游表/报表的owner当天回复一下受不受影响,不回复则对方承担问题责任,如果对方不接受修改方案,需要双方约定一下修改内容、修改日期,重定方案。数分/风控团队:与数分/风控协商完成指标共同维护,方便数分/风控使用查询,也方便数分/风控为下游解释指标口径,从而做到双嬴。前端/数平构建平台帮助下游通过可视化方式查询。原创 2024-06-05 15:45:07 · 513 阅读 · 0 评论 -
(数仓建设学习路线11)数据基建-数据安全
根据查看表的人群、查看的内容(多数使用于门户、报表、对外透出表等场景)来脱敏,例如用户手机号,身份证等数据脱敏,脱敏可在ODS、也可在ADS做,看具体业务场景,例如橘厂在ODS完成脱敏操作。数据是重要的资产,合理地使用能为企业带来巨大的价值,但同时数据安全管控不佳则会对企业造成更大的风险,数据泄露可能会造成业务失信于客户、导致经济损失等影响。S3:非业务核心表 - 敏感数据,其他部门使用存在较低的风险,建议实施较严格技术和管理措施 - 可以对外部分开放,例如部分字段申请、视图开放。原创 2024-06-06 16:20:26 · 629 阅读 · 0 评论 -
大数据平台开发技术栈
具体情况具体分析,根据你个人擅长的维度去选一个自己感兴趣的方向,以上的并不一定要全会,但得在某个方向上有自己的理解和建树,比如你想做调度,那你懂Airflow Dolphinscheduler就可以,想做集成懂DataX SeaTunnel Flinkx就可以,想做这个方向,得懂一些框架源码+会设计和写微服务接口,能做到这些基本上随便转。总体来说做中台方向涉及到技术栈比较杂,跟传统后端开发中的全栈类似,俗称全干工程师,一般技术栈要求如。大的方面:平台侧 引擎侧。首先要确定平台的方向。原创 2025-01-04 19:49:54 · 287 阅读 · 0 评论 -
(数仓建设学习路线10)数据基建-元数据管理
简单来说就是描述数据的数据,更直白来说就是描述表名、表制作者、表字段、表生命周期、表存粗等信息的数据。原创 2024-06-05 15:30:14 · 530 阅读 · 0 评论 -
(数仓建设学习路线)数仓建模
加列:为明细表添加四个字段一个字段为拉链的开始日期(默认为用户数据出现的日期),一个为拉链结束日期,一个为第二个段拉链开始日期(默认9999-99-99),一个为第二个段拉链结束日期(默认9999-99-99),当原数据更新时候,原第一个拉链日期不变,第一个拉链结束日期为数据变更日期,第二个日期开始时间为数据更新时间,第二个结束日期不变。:全称Data Warehouse Detail,是数仓明细数据层,对ODS层的数据进行关联,清洗,维度退化(将维度表中维庶数据放入明细表中),转换,主题域建设等操作。原创 2024-06-05 14:42:58 · 730 阅读 · 0 评论 -
(数仓建设学习路线)如何评价一个数仓的好坏
数仓评价好坏是对数仓全流程机制是否健全的评价,从技术方面,数据仓库应该具有成本、质量、效率要求,安全方向方面的能力,从业务方面,数据仓库应该支撑业务建设,覆盖尽可能多的业务场景,需要数据时能够及时取到,能满足业务数据化需求。原创 2024-06-02 09:43:47 · 947 阅读 · 0 评论
分享