关于Spark工作总结--读取数据库注意事项（解决占用连接多，耗内存，速度慢等问题）

最新推荐文章于 2025-05-22 19:11:59 发布

YangSir7

最新推荐文章于 2025-05-22 19:11:59 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/YangSir7/article/details/80362243

本文总结了使用Spark从数据库读取数据时遇到的问题，包括连接占用过多、内存消耗大和速度慢等，并提出了解决方案，旨在提高数据处理效率和资源利用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题解决背景：

避免尽量少的使用hiveContext.read.jdbc(url,sql,prop)来读取数据库

①：其中sql语句不要用通配符 *，是关于解析引擎耗时的解决办法，使用全字段代替select *;

②：在查询时加索引，在你之前的字段上加自增长主键Id字段，查出来快的不是一点半点。

终极大招：

1：将数据按照上述方法读取出来放进DataFrame中。

2：使用DataFrame的类SQL的方法，比如select(),distinct(),where()等，来获取需要的字段存进newDataFrame中

3：使用2的方法的时候，要知道sql的执行顺序，比如where()执行顺序在select()之前，此时就需要先DF.where().select()

4：使用上述方法的时候注意观察cpu的消耗。毕竟此方法是将数据全部读取到内存中在进行操作的；

5：如果说再想写回数据库：将DataFrame注册成临时表，查询临时表，sqlCommand(查询临时表语句)

hiveContext.sql(sqlCommand).write.mode(SaveMode.Append).jdbc

("jdbc:mysql://localhost:3306/databse","tablename",prop)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YangSir7

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark面试全攻略：深入理解与高效准备指南

数据与算法架构提升之路专栏

01-27

994

这份文档提供了全面的Spark面试准备指南，涵盖了从基础到高阶的面试问题，包括Spark的核心概念、API使用、性能优化技巧以及最新的Spark特性。文档结构清晰，内容详实，旨在帮助面试者深入理解Spark框架，提升面试表现。

Spark-Spark Streaming例子整理(一)

热门推荐

阿里Darker

05-19

5万+

（摘自王家林）流（Streaming），在大数据时代为数据流处理，就像水流一样，是数据流；既然是数据流处理，就会想到数据的流入、数据的加工、数据的流出。日常工作、生活中数据来源很多不同的地方。例如：工业时代的汽车制造、监控设备、工业设备会产生很多源数据；信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、交通监控等；通信时代的手机、平板、智能设备、物联网等会

参与评论您还未登录，请先登录后发表或查看评论

sparksql 读取Oracle一张表的数据

weixin_44912627的博客

05-25

1115

<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc14</artifactId> <version>10.2.0.4.0</version> </dependency> 记得添加oracle的驱动添加链接描述 import org.apache.spark.SparkConf import org.apache.

spark总结

weixin_47869733的博客

04-06

4065

spark 一、了解spark 1.离线分析把一段时间的数据经过收集，整理，分析，得出一定的结论这个结论会帮助人们做一些决策不要求时限性对数据的处理方式：批处理 2.实时分析必须要求时效性，数据实时产生，实时处理对数据的处理方式：流处理 3.spark 对于大规模数据处理的一个快如闪电的统一的分析引擎（计算框架）作者：美国加州大学伯克利分校AMP（A：算法，M：机器，P：人）实验室通过对算法，机器和人的

如何调试Spark作业执行缓慢问题？

2402_87144407的博客

05-14

169

分析DAG图，定位长任务。

【SparkSQL笔记】SarkSQL高并发读取数据库和存储数据到数据库（三）

菜鸟sdut的博客

12-08

1201

1. SparkSql 高并发读取数据库 SparkSql连接数据库读取数据给了三个API： //Construct a DataFrame representing the database table accessible via JDBC URL url named table and connection properties. Dataset<Row> jdbc(Strin...

spark history网络流量占用高问题记录

08-03

372

spark history网络流量占用高问题解决

Oracle查询数据表数据很少却很慢（查询空表很很耗时）

conanju_pc的博客

01-21

3万+

Oracle表数据很少，但是select时候却执行很长时间； Oracle表数据很少，但是select时候却执行很长时间； Oracle表数据很少，但是select时候却执行很长时间；

Spark分布式内存计算框架-08 Spark SQL 性能调优实战：动态资源管理与十大优化策略详解

yangwei2048的博客

07-23

1285

Spark SQL的动态资源分配功能通过智能调整executor数量来优化资源利用率。在YARN模式下，executor会根据任务负载自动增减：空闲时会被释放（默认60秒超时），任务积压时触发新增（默认1秒延迟）。系统通过计算运行/待处理任务数、executor分配比率等参数来决定新增executor数量，并受到上下限约束（默认0到∞）。这种机制使Spark SQL能像Hive一样按需使用资源，避免了传统固定资源配置的浪费问题，特别适合多用户长服务场景。实际使用中还需考虑executor调整速率、持久化数据

数据库故障排查指南常见数据库故障问题，数据迁移过程中部分记录丢失

最新发布

百态老人的博客

05-22

712

通过合理规划和参数调优，DistCP能够高效地完成大数据的全量备份和数据校验任务。在实际操作中，需特别关注数据一致性、权限同步以及性能优化等方面。

大数据开发-Spark调优常用手段

Hoult丶吴邪

12-20

393

Spark调优 spark调优常见手段，在生产中常常会遇到各种各样的问题，有事前原因，有事中原因，也有不规范原因，spark调优总结下来可以从下面几个点来调优。 1. 分配更多的资源分配更多的资源：它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节最优的资源配置；在这个基础之上，如果说你的spark作业，能够分配的

spark jdbc 读取并发优化

02-14

spark scada jdbc连接数据库读取数据的并发优化方法。

Spark读取数据库中数据，并写入数据库中

mys_35088的博客

07-14

3107

不多说看代码（JDBC数据源）：object JDBCDemo { def main(args: Array[String]): Unit = { //获取spark的连接 val session = SparkSession.builder() .master("local") .appName(JDBCDemo.getClass.getSimpleN...

sqoop采集Oracle带宽瓶颈,为什么来自Oracle的Spark查询(加载)与SQOOP相比如此之慢？...

weixin_28875281的博客

04-03

213

我们发现,自Spark 1.3到现在的Spark 2.0.1,来自Oracle数据库的Spark API的加载数据一直很慢.典型的代码在Java中是这样的：Map options = new HashMap();options.put("url", ORACLE_CONNECTION_URL);options.put("dbtable", dbTable);options.put("batchsi...

spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案

YF_Li123的博客

08-07

481

具体请参考：https://blog.youkuaiyun.com/aijiudu/article/details/78616064 补充：如果以上方式并不能大幅缩短时间，可确认下是否ORC文件个数过多，如果太多的话建议通过合并处理减少ORC文件个数，这样能大幅减少等待时间（可能跟spark读取ORC头文件信息有关，如果个数太多，时间肯定会长） ...

sparksql代码执行过于缓慢

weixin_42240930的博客

03-15

3402

最近服务器状态不佳，oracle有时性能较差，运行sparksql向oracle中存数据时运行超级缓慢，开始还特意排查代码找错，最终换了一个oracle数据库做实验发现整个流程在几秒内非常顺利的完成了，可见oracle性能对sparksql执行速度影响巨大，特此记录此次事件。以下是运行时部分日志，可以看到每执行1/200的进度要30000ms，整个预计要200*30=6000秒才能完毕。。。。...

当Spark涉及到数据库的操作时，如何减少Spark运行中的数据库连接数？

星空下的那个人影

05-09

870

使用 foreachPartition 代替 foreach ，在 foreachPartition 内获取数据库的连接。

Spark——Spark读写Oracle

aof

04-29

1700

<dependency> <groupId>com.oracle.database.jdbc</groupId> <artifactId>ojdbc8</artifactId> <version>12.2.0.1</version> </dependency> def readOracle(spark: SparkSession): Unit = { val prop = new

解决国内网下载spark-mongodb连接器的问题

在这个上下文中，“spark-mongodb_2.10”表明这是一个为Spark设计的MongoDB连接器，而且是专为Scala 2.10版本的API编写的。版本号0.11.2表示我们所讨论的库的具体版本。 ### 描述解析描述部分提到“第三方mongo ...