foreachrdd写入mysql_通过SparkStreaming的foreachRDD把处理后的数据写入外部存储系统中...

最新推荐文章于 2021-06-15 15:34:56 发布

原创最新推荐文章于 2021-06-15 15:34:56 发布 · 128 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#foreachrdd写入mysql

该博客介绍了如何在Spark Streaming中使用连接池进行数据库操作。代码展示了如何通过静态初始化的ConnectionPool获取和归还数据库连接，并在foreachPartition中执行SQL插入操作，将数据插入到`category_top3`表中。

1、技术实现解析

2、实现实战

关键部分代码：resultRowRDD.foreachPartition( partitionOfRecords => {

// ConnectionPool is a static, lazily initialized pool of connections

val connection = ConnectionPool.getConnection()

partitionOfRecords.foreach(record => {

val sql = "insert into categorytop3(category, item, click_count) values ('" + record.getAs("category") + "','" +

record.getAs("item") + "'," + record.getAs("click_count") + ")"

val stmt = connection.createStatement()

stmt.executeUpdate(sql)

})

ConnectionPool.returnConnection(connection)

})

ConnectionPool.javapackage com.tom.spark.sparkstreaming;

import java.sql.Connection;

import java.sql.DriverManager;

import java.util.LinkedList;

public class ConnectionPool {

private static LinkedList connectionQueue;

static {

try {

Class.forName("com.mysql.jdbc.Driver");

} catch (ClassNotFoundException e) {

e.printStackTrace();

}

public synchronized static Connection getConnection() {

try {

if(connectionQueue == null) {

connectionQueue = new LinkedList();

for(int i = 0; i < 5; i++) {

Connection conn = DriverManager.getConnection(

"jdbc:mysql://Master:3306/sparkstreaming",

"root",

"778899");

connectionQueue.push(conn);

}

} catch(Exception e) {

e.printStackTrace();

}

return connectionQueue.poll();

}

public static void returnConnection(Connection conn) {connectionQueue.push(conn);}

}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wengmlang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据学习之路82-利用foreachPartition将数据写入数据库

爱米酱的博客

09-26

2219

在上一次计算的结果的基础上，我们可以将该结果写入数据库下面贴出代码： def data2MySql(part:Iterator[(String,Int)]) = { val conn: Connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/lfr","root","123456") ...

spark foreach mysql_Spark 性能调优之 foreachPartition 优化写数据库性能

weixin_36087877的博客

01-30

538

foreach 操作写数据库缺点首先，对于每条数据，都要单独去调用一次function，task为每个数据，都要去执行一次function函数。如果100万条数据，(一个partition)，调用100万次。性能比较差。另外一个非常非常重要的一点如果每个数据，你都去创建一个数据库连接的话，那么你就得创建100万次数据库连接。但是要注意的是，数据库连接的创建和销毁，都是非常非常消耗性能的。虽然我们之...

参与评论您还未登录，请先登录后发表或查看评论

spark-streaming 编程(四)自定义输出foreachRDD

刘光华的专栏

08-23

1361

spark-streaming foreachrdd

使用foreachRDD把数据上传到Mysql数据库

weixin_45817632的博客

02-14

366

简介 dstream.foreachRDD是一个强大的原语，可以将数据发送到外部系统。 DStream由输出操作延迟执行，就像RDD由RDD操作延迟执行一样。具体来说，DStream输出操作内部的RDD动作会强制处理接收到的数据。因此，如果您的应用程序没有任何输出操作，或者dstream.foreachRDD()内部没有任何RDD操作，就不会执行任何输出操作。系统将仅接收数据并将其丢弃。在默认情...

SparkStreaming foreachPartition实现输出数据到MYSQL

小东升职记

07-03

898

import java.sql.DriverManager import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} object foreachTOMysql { def writeToMysql()={ val conf = new Spar...

第96课：通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中

weixin_34336292的博客

05-03

212

本期内容技术实现解析实现实战SparkStreaming的DStream提供了一个dstream.foreachRDD方法，该方法是一个功能强大的原始的API，它允许将数据发送到外部系统。然而,重要的是要了解如何正确有效地使用这种原始方法。一些常见的错误,以避免如下：写数据到外部系统，需要建立一个数据连接对象（例如TCP连接到远程的服务器），使用它将数据发送到外部存储系统。为...

DStream输出之使用foreachRDD()将数据写入诸如Mysql的外部数据库中

01-20

总结来说，`foreachRDD(func)`是Spark Streaming中将数据写入外部系统的灵活方式，可以适应各种不同的存储需求，包括将数据存储到关系型数据库如MySQL中。使用这种方式，开发者可以根据实际需求定制数据处理和保存的...

通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中

热门推荐

吾心光明

08-25

1万+

本博文主要内容包括：技术实现foreachRDD与foreachPartition解析 foreachRDD与foreachPartition实现实战一：技术实现foreach解析：1、首先我们看一下Output Operations on DStreams提供的API： SparkStreaming的DStream提供了一个dstream.foreachRDD方法，该方法是一个功能强大的

Spark Streaming之foreachRDD操作详解

蔡政洁的博客

12-19

2252

DStream中的所有计算，都是由output操作触发的，比如print()。如果没有任何output操作，那么，压根儿就不会执行定义的计算逻辑。此外，即使你使用了foreachRDD output操作，也必须在里面对RDD执行action操作，才能触发对每一个batch的计算逻辑。否则，光有foreachRDD output操作，在里面没有对RDD执行 action操作，也不会触发任何逻辑。 Output Meaning print 打印每个batch中的前10个元素，主要用于测试，

spark向kafka写入数据

qq_56870570的博客

06-15

2404

spark向kafka写入数据前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。（

【八】Spark Streaming 用foreachRDD把结果写入Mysql中Local模式（使用Scala语言）

Sid小杰的博客

07-18

2151

DStream 的foreachRDD是允许把数据发送到外部文件系统中。然而使用不当会导致各种问题。错误示范1：在driver创建连接，在woker使用。会报错connection object not serializable。错误示范2：rdd每个记录都创建连接，成本非常高。正确示范：拿到rdd以后foreachPartition，每个partition创建连接，而且使用数...

spark foreachPartition 把df 数据插入到mysql

易水寒

06-22

7460

package com.waitingfy import java.sql.{Connection, DriverManager, PreparedStatement} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import scala.collection.mutable...

Spark 性能调优之 foreachPartition 优化写数据库性能

chixushuchu的博客

12-18

5635

foreach 操作写数据库缺点首先，对于每条数据，都要单独去调用一次function，task为每个数据，都要去执行一次function函数。如果100万条数据，（一个partition），调用100万次。性能比较差。另外一个非常非常重要的一点如果每个数据，你都去创建一个数据库连接的话，那么你就得创建100万次数据库连接。但是要注意的是，数据库连接的创建和销毁，都是非常非常消耗...

spark foreach mysql_spark foreachPartition 把df 数据插入到mysql

weixin_33733742的博客

01-19

678

package com.waitingfyimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions._import scala.collection.mutable.ListBu...

rdd 保存mysql_使用foreachRDD把数据上传到Mysql数据库

weixin_29732737的博客

02-21

404

简介dstream.foreachRDD是一个强大的原语，可以将数据发送到外部系统。DStream由输出操作延迟执行，就像RDD由RDD操作延迟执行一样。具体来说，DStream输出操作内部的RDD动作会强制处理接收到的数据。因此，如果您的应用程序没有任何输出操作，或者dstream.foreachRDD()内部没有任何RDD操作，就不会执行任何输出操作。系统将仅接收数据并将其丢弃。在默认情况下，...

Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中

数据创造价值

05-27

596

1.代码 dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => // ConnectionPool is a static, lazily initialized pool of connections val connection = ConnectionPool.get

Spark Streaming foreachRDD以及foreachPartition 操作数据库连接写入数据

chixushuchu的博客

12-24

2138

Spark Streaming foreachRDD的正确使用误区 1. 在driver端创建对象在driver上创建连接对象（比如网络连接或数据库连接）如果在driver上创建连接对象，然后在RDD的算子函数内使用连接对象，那么就意味着需要将连接对象序列化后从driver传递到worker上。而连接对象（比如Connection对象）通常来说是不支持序列化的，此时通常会报序列化的异常（se...

使用SparkStreaming 实时计算景点搜索热度TOP3输出到输出到外部存储系统

05-25

使用SparkStreaming实时计算景点搜索热度TOP3的步骤如下： 1. 从外部存储系统中获取搜索数据，例如Kafka、Flume等。... // 将热度TOP3数据写入外部存储系统 }) }) ssc.start() ssc.awaitTermination() } } ```