日常记录备忘
-
Hive修改字段类型之后(varchar->string)Hive可以查到数据,Presto查询报错; 分区字段数据类型和表结构字段类型不一样;
-
spark-sql分区表和非分区表兼容问题, 不能关联 可以建临时表把分区数据导入,用完数据将表删除;
-
count有数据,select没数据 可能是压缩格式所导致;
-
优化合全量任务,之前是row_number()函数 先插入当天增量,取出最新的数据插入全量表 改成:昨日增量+ (loan_id前天全量中不在昨天增量中的)建议用left join ,用in效率很低;
-
hivesql改sparksql,建表insert overwrite xxx select总是报错,试了单独select有数据,insert不进去原因:查了建表语句两表压缩格式不一样;
-
parquet格式snappy方式 改为orc格式snappy方式 文件大小小了三倍多,加合并小文件参数 减小namenode压力,这种方式可以用于查询较少的文件,方法:新建一张和原表字段一样压缩格式为orc的表,再将原表数据select insert进新表中,将旧表表名改成别的表,新表rename to旧表;
-
hive 更改字段,分区表要加cascade ,否则历史分区不会生效,示例:
alter table tb_name change c1 c2 string cascade; -
spark报错 :failed to allocate a page ; 在提交任务时 调大driver和excutor的内存大小。

本文记录了在使用Hive和Spark时遇到的一些常见问题及其解决方案,包括Hive字段类型修改后的问题、分区表与非分区表的兼容性、数据查询异常、表的格式转换、大表JOIN问题以及Spark SQL执行错误等。通过这些经验分享,有助于解决日常工作中遇到的类似挑战。
最低0.47元/天 解锁文章
7390

被折叠的 条评论
为什么被折叠?



