环境 :CDH 6.3.2 spark2.4.0 hive 2.1.1
背景:5月份进行集群迁移,升级CDH,调度工具换成Dolphin Scheduler,迁移后程序运行始终不稳定,发现一个非常常见的错误,如下图:
当时也看了针对报错,看了网上的解决方案,我们架构师改了影响spark连接超时的三个参数:
hive.spark.client.server.connect.timeout=30000
hive.spark.client.connect.timeout=30000
hive.spark.client.future.timeout=300
修改完之后,问题仍然没有解决,就因为这个小bug,经常导致我们Dolphin Scheduler任务跑完了,hive分区中的数据没数,或者程序直接报错,虽然Dolphin Scheduler有重试功能,但是一直这样子下去,会让人感觉,这个hive on spark 不靠谱,不稳定,动不动就连接超时,重试还会增加任务运行时间。虽然解决不了,但是看着每天任务日志上几十几十的报错任务,心里也揪心,这个问题就不能彻底解决吗?
在某周三的上午,皱着眉头一直在想这个问题,整合网上的问题解决方案,对着日志沉思,究竟是哪里出了问题?在我细心的观察下,我发现了问题的关键,参数是设置了,但是设置错地方了&