HIVE- SPARK

本文记录了在使用Hive和Spark时遇到的一些常见问题及其解决方案,包括Hive字段类型修改后的问题、分区表与非分区表的兼容性、数据查询异常、表的格式转换、大表JOIN问题以及Spark SQL执行错误等。通过这些经验分享,有助于解决日常工作中遇到的类似挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

日常记录备忘

  1. Hive修改字段类型之后(varchar->string)Hive可以查到数据,Presto查询报错; 分区字段数据类型和表结构字段类型不一样;

  2. spark-sql分区表和非分区表兼容问题, 不能关联 可以建临时表把分区数据导入,用完数据将表删除;

  3. count有数据,select没数据 可能是压缩格式所导致;

  4. 优化合全量任务,之前是row_number()函数 先插入当天增量,取出最新的数据插入全量表 改成:昨日增量+ (loan_id前天全量中不在昨天增量中的)建议用left join ,用in效率很低;

  5. hivesql改sparksql,建表insert overwrite xxx select总是报错,试了单独select有数据,insert不进去原因:查了建表语句两表压缩格式不一样;

  6. parquet格式snappy方式 改为orc格式snappy方式 文件大小小了三倍多,加合并小文件参数 减小namenode压力,这种方式可以用于查询较少的文件,方法:新建一张和原表字段一样压缩格式为orc的表,再将原表数据select insert进新表中,将旧表表名改成别的表,新表rename to旧表;

  7. hive 更改字段,分区表要加cascade

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值