一个月里滚打摸爬的一些小经验。
我是真的感觉走了太多弯路了。希望小白入职要好好看。
数据开发与规范
1、导数据之前,要确定好字段格式与数据类型,按照数仓要求文档去开发。
2、不同数据库导数据,无论数据多大都要先在源数据聚合统计,再在导完之后的数据进行统计,以及字段的大致校验。(不能不校验,不然很多脏数据会不好开发)。
3、做好整理文档的习惯,数仓开发文档以及注释,写代码一定要写注释,不仅仅是方便自己,也是方便其他人。
4、边开发要边测试,不要等到验收的时候一堆bug,测试还要考虑null值的影响。
5、建数仓如果是不同主题的表需要关联,left join会影响计算值,
所以先查一个子查询去校验是否使用关联,如果关联影响数据就建临时表。
6、数据量一下子统计很多,就多建临时表。我之前接了一个需求,要统计每个月份和一年的统计,按照正常的sql一下子跑一个小时。
步骤一定是先计算天的,再计算月的,每个月份跑3分钟就注意了,如果不是上调度这种就建临时表,里面添加月分区,计算就快了!
7、数据出错的流向图,有指标没数据就自己去从ads层到dwd,ods一层一层地找。
8、每天列好自己的清单,努力完成好自己的工作。
9、理解需求很重要,在需求大会多提问,每次接到需求就要仔细去思考具体步骤,而不是边开发边问。
比如数据要怎么接进来?
数据需要做什么清洗?
配置前端需要哪些字段作为接口?
我要开发一个什么样的表才能覆盖前端所有的