HIVE- SPARK

原创

已于 2022-03-14 11:40:03 修改 · 697 阅读

CC 4.0 BY-SA版权

文章标签：

于 2021-07-06 16:04:44 首次发布

本文记录了在使用Hive和Spark时遇到的一些常见问题及其解决方案，包括Hive字段类型修改后的问题、分区表与非分区表的兼容性、数据查询异常、表的格式转换、大表JOIN问题以及Spark SQL执行错误等。通过这些经验分享，有助于解决日常工作中遇到的类似挑战。

日常记录备忘

Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错; 分区字段数据类型和表结构字段类型不一样；
spark-sql分区表和非分区表兼容问题，不能关联 可以建临时表把分区数据导入，用完数据将表删除；
count有数据，select没数据 可能是压缩格式所导致；
优化合全量任务，之前是row_number()函数先插入当天增量，取出最新的数据插入全量表 改成：昨日增量+ （loan_id前天全量中不在昨天增量中的）建议用left join ，用in效率很低；
hivesql改sparksql，建表insert overwrite xxx select总是报错，试了单独select有数据，insert不进去原因：查了建表语句两表压缩格式不一样；
parquet格式snappy方式改为orc格式snappy方式文件大小小了三倍多,加合并小文件参数 减小namenode压力，这种方式可以用于查询较少的文件，方法：新建一张和原表字段一样压缩格式为orc的表，再将原表数据select insert进新表中，将旧表表名改成别的表，新表rename to旧表；
hive 更改字段，分区表要加cascade ，否则历史分区不会生效，示例：alter table tb_name change c1 c2 string cascade；
spark报错 :failed to allocate a page ; 在提交任务时调大driver和excutor的内存大小。