spark mysql作为数据源读取数据操作

最新推荐文章于 2024-10-15 15:14:28 发布

原创最新推荐文章于 2024-10-15 15:14:28 发布 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

36 篇文章

订阅专栏

本文详细介绍如何使用SparkSQL进行数据操作，包括创建SparkSession、从数据库加载数据、过滤特定条件的数据、选择列并显示结果，以及将处理后的数据保存为不同格式。

1、sparkSQL操作需要创建SparkSession，sparkRDD操作需要创建SparkContext。
这里使用sparkSession

val sparkSession:SparkSession = SparkSession.builder()
.appName("JdbcSource")
.master("local[2]")
.getOrCreate()

2、加载数据源
url:连接到具体数据库
driver:mysql驱动
dbtable:urlcount数据库中的表名
user:数据库urlcount用户名
password:密码

import sparkSession.implicits._
val url_data:DataFrame = sparkSession.read.format("jdbc")
.options(Map(
"url" -> "jdbc:mysql://localhost:3306/urlcount",
"driver" -> "com.mysql.jdbc.Driver",
"dbtable" -> "url_data",
"user" -> "root"
"password" -> "root"
))

3、过滤

val r:Dataset[Row] = url_data.filter($"uid" > 2)
val rs:DataFrame = r.select($"xueyuan",$"number_one")

4、显示

rs.show()

5、读取后保存
以txt文件保存，注意r.select($“xueyuan”)这里只能单列

rs.write.text("e:/saveText")

以json格式保存

rs.write.json("e:/saveJson")

以csv格式保存这是excel

rs.write.csv("e:/saveCsv")

以parquet格式保存

rs.write.parquet("e:/savePar")

6、关闭资源

sparkSession.stop()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

方兵兵

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark SQL 多数据源操作（Scala）

Junds0的博客

04-25

2028

文件中会对列加入统计信息: 包括列的 max, min, sum 等, 因此可以在 sql 查询时进行 RBO 中的谓词下推。本关任务：根据编程要求，完善程序，实现 Spark SQL 读取 ORC 格式的 Hive 数据表。本关任务：根据编程要求，编写 Spark 程序读取指定数据源，完成 Parquet 分区任务。本关任务：根据编程要求，读取本地文件，将数据使用 JDBC 方式进行保存。本关任务：根据编程要求，编写 Spark 程序读取指定数据源，完成任务。Spark SQL 保存数据到 Hive。

Spark 同步 MySQL 数据到 Hive：技术实践与代码示例

qq_34207898的博客

10-20

971

Spark 同步 MySQL 数据到 Hive

参与评论您还未登录，请先登录后发表或查看评论

使用Spark(jdbc)从MySQL读取和保存数据.

01-19

使用Spark(jdbc)从MySQL读取和保存数据.

Spark操作外部数据源之Mysql数据源

大数据跟我学i

04-24

320

将RDD中数据写入到Mysql中实际开发中常常将分析结果RDD保存至MySQL表中，使用foreachPartition函数；此外Spark中提供JdbcRDD用于从MySQL表中读取数据。调用RDD#foreachPartition函数将每个分区数据保存至MySQL表中，保存时考虑降低RDD分区数目和批量插入，提升程序性能。范例演示：将词频统计WordCount结果保存MySQL表tb_wordcount。建表 USE db_test ; CREATE TABLE `tb_wordcount` (

使用java实现Sparkstreaming读取MySQL数据

weixin_42497376的博客

10-08

684

首先需要通过JDBC连接MySQL数据库，确保已经导入了JDBC驱动程序。以上是使用Java实现Sparkstreaming读取MySQL数据的步骤，可以将此代码放入Java项目中。

Spark读写MySQL数据库

qq_42260493的博客

12-13

2765

使用Spark读写MySQL数据

spark数据源mysql_Spark - 直接操作数据源 MySQL

weixin_36462094的博客

01-20

194

> 如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。## 读取```val mysqlDF = spark.read.format("jdbc").option("driver","com.mysql.jdbc.Driver").option("url","jdbc:mysql...

精选资源

spark读取hbase数据，并使用spark sql保存到mysql

09-24

通过使用 DataFrame API 和 Spark SQL，可以方便地在不同的数据源之间进行数据迁移和处理。在实际应用中，根据具体需求，你可能还需要处理数据类型转换、错误处理等问题，以确保数据的一致性和完整性。

Spark数据源的读取与写入、自定义函数

m0_70882914的博客

10-15

772

Spark数据源的读取与写入、自定义函数

spark stream mysql_spark streaming使用数据源形式插入mysql数据_mysql

weixin_39583162的博客

01-19

139

import java.sql.{Connection, ResultSet} import com.jolbox.bonecp.{BoneCP, BoneCPConfig} import org.slf4j.LoggerFactory object ConnectionPool { val logger = LoggerFactory.getLogger(this.getClass) ...

spark mysql 数据源_Spark DataFrame使用MySQL作为数据源

weixin_30297493的博客

01-19

330

本文简单介绍DataFrame从MySQL中组织数据。所用语言为spark自身支持的scala一、环境准备首先确保你正确安装了spark，包括配置好环境；建立一个数据库名为testDF,创建表user,包含如下数据idnameage1chen212liang22二、从MySQL表中创建DataFrame1.运行spark本地单进程模式：spark-s...

Spark使用Java读取Mysql

hhujjj2005的博客

04-30

594

2 Idea,maven工程。Spark版本：3.5.0。创建表user表和插入数据。

从spark读取mysql中的数据

qq_45786391的博客

05-20

1538

【注意】需要提前将驱动放到spark安装目录下的jars中，然后关掉现有的pyspark，重新打开终端登录pyspark，再运行读取数据的程序。 jdbcDF=spark.read\ .format("jdbc")\ .option("driver","com.mysql.jdbc.Driver")\ .option("url","jdbc:mysql://localhost:3360/sparkass")\ .option("dbtable","student")\ .option("user","roo

Spark -- 读取mysql的4种方式和各自的应用场景

TheBigBlue的博客

07-18

9737

spark read mysql

jdbc mysql spark_Spark通过JDBC使用MySQL作为数据源

weixin_28944739的博客

02-26

312

假设场景：用户使用beeline或者其他JDBC客户端，通过Spark Thrift server的JDBC服务，来访问MySQL。一般来说，直接通过JDBC来访问MySQL，可以肯定其数据量不大(无论是从MySQL读还是写到MySQL)，否则应该将MySQL的数据导入到Hive库中(当然可以使用create table xxx stored as parquet as select * from...

SparkSeesion读写mysql

https://blog.youkuaiyun.com/sinat_36710456

12-10

1632

package cn.xjw import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} //实体类 case class MY_TEST_DB(val id:Int,val name:String,password:String) object DB { def mai...

spark编程mysql数据源_Spark - 直接操作数据源 MySQL

weixin_28695161的博客

02-04

175

如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。读取val mysqlDF = spark.read.format("jdbc").option("driver","com.mysql.jdbc.Driver").option("url","jdbc:mysql://localhos...

mysql外部数据源_Spark操作外部数据源--MySQL

weixin_28363123的博客

01-19

127

操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").option("password", "root").option("driver", "com.my...

spark编程mysql数据源_JDBC数据源

weixin_29762151的博客

02-11

219

Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用Spark Core提供的各种算子进行处理。这里有一个经验之谈，实际上用Spark SQL处理JDBC中的数据是非常有用的。比如说，你的MySQL业务数据库中，有大量的数据，比如1000万，然后，你现在需要编写一个程序，对线上的脏数据某种复杂业务逻辑的处理，甚至复...

Spark SQL操作数据源

最新发布

06-06

### 如何使用 Spark SQL 操作数据源 Spark SQL 提供了丰富的 API 来与各种数据源进行交互，包括 Parquet、JSON、CSV 和 JDBC 等[^2]。以下是详细的操作步骤和代码示例。 #### 1. 初始化 SparkSession 在操作任何数据源之前，必须先初始化 `SparkSession`，这是 Spark SQL 的入口点[^2]。 ```scala val spark: SparkSession = SparkSession.builder() .appName("DataFromMysql") .master("local[2]") .getOrCreate() ``` #### 2. 读取 JSON 数据可以使用 `spark.read.json` 方法从本地或分布式文件系统中读取 JSON 文件，并将其转换为 DataFrame[^1]。 ```scala val dataFrame: DataFrame = spark.read.json("file:///data/bigfiles/test.json") dataFrame.createOrReplaceTempView("data") // 创建临时视图 spark.sql("select id, name, age, class from data").orderBy("id").show() // 查询并显示结果 ``` #### 3. 使用 JDBC 操作数据库通过 JDBC 连接数据库（如 MySQL），需要设置连接属性并指定 JDBC URL[^3]。 ```scala import java.util.Properties val properties: Properties = new Properties() properties.setProperty("user", "root") properties.setProperty("password", "Password123$") val mysqlDF: DataFrame = spark.read.jdbc("jdbc:mysql://192.168.196.101:3306/spark", "person", properties) mysqlDF.show() // 显示表数据 ``` #### 4. 写入数据到数据库可以通过 `DataFrame.write.jdbc` 方法将数据写入数据库[^4]。 ```scala import org.apache.spark.sql.types._ import org.apache.spark.sql.Row // 创建新的数据 val personRDD = spark.sparkContext.parallelize(Array("3 zhangsan 22", "4 lisi 29")).map(_.split(" ")) val schema = StructType(List( StructField("id", IntegerType, true), StructField("name", StringType, true), StructField("age", IntegerType, true) )) val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt)) val personDF = spark.createDataFrame(rowRDD, schema) // 将数据插入表中 personDF.write.mode(SaveMode.Append).jdbc("jdbc:mysql://192.168.196.101:3306/spark", "person", properties) ``` #### 5. 其他数据源操作 Spark SQL 支持多种数据格式，例如 CSV 和 Parquet。以下是如何读取和写入 CSV 文件的示例[^2]： ```scala // 读取 CSV 文件 val csvDF: DataFrame = spark.read.option("header", "true").csv("path/to/csv/file.csv") // 写入 CSV 文件 csvDF.write.mode(SaveMode.Overwrite).option("header", "true").csv("path/to/output/directory") ``` --- ###