
优化
文章平均质量分 86
大数据海中游泳的鱼
大数据海中游泳的鱼,对Spark、Hadoop、HDFS、Kafka、Hive、HQL、SQL都有兴趣。
展开
-
Hive数据倾斜
任务进度长时间维持在99%(100%),查看任务监控页面(通过HPM、HSJO、HSJD、HSJR等监控工具),发现只要少量(1个或几个)reduce子任务未完成。通常情况下,JOIN操作在Reduce阶段执行表连接,整个JOIN过程包含Map、Shuffle、Reduce三个阶段。(在大表和一个或多个小表JOIN的场景下,MAPJOIN会将您指定的小表全部加载到执行JOIN操作的程序的内存中,因此指定的表仅能为小表。Hive的默认Input Split是128MB(可配置),小文件可先合并成大文件。原创 2023-04-05 14:33:19 · 271 阅读 · 0 评论 -
Spark中常用的压缩方法(python:Gzip、Snappy、LZO、Bzip2 )
Spark中常用的压缩方法有Gzip、Snappy、LZO、Bzip2等。原创 2023-04-05 13:06:59 · 1955 阅读 · 0 评论 -
Spark SQL进行数据处理和分析中可能遇到的问题以及性能优化思路
Spark SQL进行数据处理和分析中可能遇到的问题以及性能优化思路。原创 2023-04-05 12:57:59 · 927 阅读 · 0 评论 -
SparkSQL优化查询性能的方法
需要注意的是,不同的连接方式适用于不同的数据集大小和查询场景,具体的选择需要根据实际情况进行判断。另外,还可以使用SparkSQL中的调优参数和配置,如。SparkSQL中有几种方法,可以用于优化查询性能。等,来优化查询性能。原创 2023-04-04 20:14:58 · 1310 阅读 · 0 评论