日常记录备忘
-
Hive修改字段类型之后(varchar->string)Hive可以查到数据,Presto查询报错; 分区字段数据类型和表结构字段类型不一样;
-
spark-sql分区表和非分区表兼容问题, 不能关联 可以建临时表把分区数据导入,用完数据将表删除;
-
count有数据,select没数据 可能是压缩格式所导致;
-
优化合全量任务,之前是row_number()函数 先插入当天增量,取出最新的数据插入全量表 改成:昨日增量+ (loan_id前天全量中不在昨天增量中的)建议用left join ,用in效率很低;
-
hivesql改sparksql,建表insert overwrite xxx select总是报错,试了单独select有数据,insert不进去原因:查了建表语句两表压缩格式不一样;
-
parquet格式snappy方式 改为orc格式snappy方式 文件大小小了三倍多,加合并小文件参数 减小namenode压力,这种方式可以用于查询较少的文件,方法:新建一张和原表字段一样压缩格式为orc的表,再将原表数据select insert进新表中,将旧表表名改成别的表,新表rename to旧表;
-
hive 更改字段,分区表要加cascade