
Spark优化
文章平均质量分 63
spark优化记录
Tate小白
一个学习大数据的小白
展开
-
同一条sql语句 ,使用Spark Sql 和 hive Sql查询数据结果不一致
同一条sql语句 ,使用Spark Sql 和 hive shell 查询数据结果不一致1、sql语句2、spark sql 执行结果3、hive sql 执行结果4、原因Hive写入Parquet/Orc表时,实现了自己的一个SerDe,Spark觉的Hive的SerDe性能比较低,于是实现了自己的SerDe。因此碰到Parquet、Orc的表数据写入时,SparkSQL默认使用自己内部的SerDe。5、解决方式.config(“spark.sql.hive.convertMetast原创 2021-10-12 13:47:45 · 2256 阅读 · 0 评论 -
Spark SQL 小文件问题
Spark SQL 小文件问题1、 小文件现象2、小文件产生的原因3、小文件的危害4、如何解决小文件问题4.1 spark-sql adaptive框架解决小文件问题4.2 举例1、 小文件现象文件大小只有几KB,数量有4800个。2、小文件产生的原因在使用spark sql处理数据的过程中,如果有shuffle产生,依赖于spark.sql.shuffle.partitions配置信息,默认为200,当处理的数据量比较大时,通常会把该值调大,以避免单个分区处理的数据太大出现异常或者拖慢整个任务原创 2021-08-24 17:04:31 · 3181 阅读 · 0 评论