spark滥用count方法的后果,去掉count后,性能提升1倍

功夫猫熊yeah

于 2020-03-10 18:29:15 发布

阅读量3.1k

点赞数

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/weixin_39031707/article/details/104780133

版权

spark 专栏收录该内容

28 篇文章

订阅专栏

建好的代码如下

val result1 =sparksession.sql("select dxkk")//假设这个sql很耗时,1h

val executorBalanced = new BalancedClickhouseDataSource(jdbcLink, properties)
		val executorConn = executorBalanced.getConnection.asInstanceOf[ClickHouseConnectionImpl]


		//写入clickhouse
		properties.put("driver",driver)
		properties.put("socket_timeout","300000")
		properties.put("rewriteBatchedStatements","true")
		properties.put("batchsize","200000")
		properties.put("numPartitions","5")
		dropPartitons(executorConn,table1,getAfterDay(Day, -3))
		dropPartitons(executorConn, table1, Day)
		//注意这个就是罪魁祸首
		print(result1.count())
		result1.write.mode("append").jdbc(jdbcLink, table1, properties)