
数据仓库
文章平均质量分 77
qq_36120059
这个作者很懒,什么都没留下…
展开
-
数仓规范管理
整个流程是,业务部门提出报表需求,然后开发调研,进行数仓开发,然后进行报表开发。可以将整个数据开发流程拆分成调研人员,数据架构师,数据建模师,数仓开发人员(数仓开发人员可以按照数据分层分为ods开发,dwd层开发,dws层开发),报表开发人员,数据测试人员。谈到数仓规范,我们都会讲到数据建模和数仓分层,讲数仓会做数仓横向做数仓分层用于降低数据开发复杂程度和数据复用。定规范:这里的规范就是数仓具体的规范,包含数仓建模规范,数仓分层规范,数仓命名规范, 数仓开发规范。原创 2024-01-10 11:37:00 · 471 阅读 · 0 评论 -
浅谈数据仓库运营
根据表引用次数进行排名,重点关注引用次数高的和次数低的,次数高的定期优化,确保任务执行失败,次数低的考虑数据架构是否合理,如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉,会存在很多僵尸表)。:检查数据库表是否存在循环写入(A->B,B->C,C->A),很多公司不存在数据架构师,往往为了实现报表需求,直接拿已经做好的指标,可能会存在循环写入的情况(A表用B表指标1,B表用A表指标2)企业每天都会产生大量的数据,随着时间增长,数据会呈现几何增长,尤其在系统基建基础好的公司。原创 2023-12-26 17:45:12 · 1517 阅读 · 0 评论 -
从报表需求到报表开发的流程
做好开发手册编写,要有报表设计和开发思路,以及重要功能。报表操作手册要包含管理者、开发者、使用人员、使用部门、数据更新时间、报表目录、使用方法、注意事项、使用场景、业务背景等等信息(详细可以见报表运营博客,os:还在编写中)。指标管理是报表管理很重要的一个方面,报表可以说是由指标组成,在集团性公司,会存在重复建设的情况,有些因为业务原因需要存在,大部分还是开发管理的问题导致重复建设。需求说明书:按照5W2H标准输出,要包含业务背景、业务提出人、调研人、数据架构师、数据建模师、数仓开发人、报表开发人。原创 2023-12-26 16:23:47 · 1936 阅读 · 0 评论 -
基于Kettle和帆软Finereport的血缘解析
然后输入如果是表输入,通过sql查询的,用sql parser解析获取到表和字段信息。可以找到数据集是存在<TableData>节点下,可以拿到查询的sql,然后用sql parser解析获取到表和字段,在<DatabaseName>里面可以拿到数据连接名,这里可以在帆软内置库中找到数据连接名的具体链接信息,用于打通和Kettle之间的联系。上面只讲了帆软FineReport,帆软还有FineBI,在FineBI里是有血缘的,如果要做整体的管理,可以考虑将FineBI的数据获取到和所有的血缘进行融合。原创 2023-12-24 14:55:03 · 1726 阅读 · 0 评论