1、复制分区表数据时可以使用动态分区,如果写死分区会报错,显示多出一个字段,因为分区也是一个字段
insert overwrite into table tab_name partition (dt) select * from scr_tab where dt = ‘2021-02-17’
2、在excell里面进行数据核对的时候,一定要保存好数据,删除不需要的的sheet页更要小心,删除就无法恢复,尽量把临时的sheet页放到最后
3、做迁移的时候一定要留意数据加工过程中做了哪些转换,尤其是数据加工链路较长时,可能每个地方都做了转换,最坑的时在某一处进行了大量转换,你很可能会以为所有的转换都这里做完了,但是后面某处又转了一次,不是每个人都按套路走
4、建表的时候如果把格式定为textfile,那么在做nvl(col_name,’’)的时候会失败,可以在建textfile表的时候要设置
row format delimited fields terminated by ‘\001’ null defined as ‘’ stored as textfile;
5、很容易写错的两个关键字是alter、table,经常因为手速跟不上脑速打错,最尴尬的是提交脚本到SVN后让同事看到了
6、在测试环境跑数据的时候一定要注意修改表前面的库名,想好用的是测试库还是生产库,不然跑出来的数据肯定有问题
7、数仓中不同层的表访问时要确认权限问题,比如数据集市中的DMI可以访问DMS,DMS可以访问DMD,但是反之就不一定可以,会存在向上向下兼容问题
8、回刷历史数据的时候一定要注意日期范围,如果要回刷1号、2号的数据,则配置日期的时候就要1.1-1.3,结束日期是目标日期的后一天
9、每个人负责不同的模块需求开发,如果用到别人的表,需要在表里面加逻辑,一定要和对应的负责人说一声,不然很容易认为那张表只有自己在用,不会去SVN拉最新代码,后果就是他再次提交代码的时候会冲突,甚至会强制覆盖掉自己添加的逻辑
10、写子查询的时候一定要写别名,否则会报错