Spark读取JDBC调优

Malegod丶小飞

已于 2023-03-08 18:20:52 修改

阅读量1.5k

点赞数

文章标签：大数据 spark 数据库

于 2023-03-08 18:14:00 首次发布

本文链接：https://blog.youkuaiyun.com/ThestarRY/article/details/129397560

版权

Spark读取JDBC调优，如何调参

一、场景构建
二、参数设置
- 1.灵活运用分区列

实际问题：工作中需要读取一个存放了三四年历史数据的pg数仓表（缺少主键id），需要将数据同步到阿里云 MC中，Spark在使用JDBC读取关系型数据库时，默认只开启一个task去执行，性能低下，因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义，否则可能会因为配置不当导致数据倾斜！

翻看了网络上好多相关介绍，都沾边。下边总结一下！

您是菜鸟就好好学习，您是大佬欢迎提出修改意见！

一、场景构建

以100行数据为例（实际307983条）：

创建表

CREATE TABLE IF NOT EXISTS test(
	good_id STRING ,
	title STRING ,
	sellcount BIGINT,
	salesamount Double
)COMMENT '测试表'
PARTITIONED BY (
	dt	STRING	COMMENT '分区字段'
);

插入数据

insert into test partition (dt = '202001') 
values (

最低0.47元/天解锁文章

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值