spark连接mysql

最新推荐文章于 2025-06-16 20:53:53 发布

原创最新推荐文章于 2025-06-16 20:53:53 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark连接mysql #mysql #spark

spark 专栏收录该内容

26 篇文章

订阅专栏

本文介绍了如何在Spark项目中引入MySQL的jar包，从而实现Spark与MySQL数据库的连接，进行数据操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引入mysql的jar包

package com.agm.database

import java.sql.DriverManager
import org.apache.spark.SparkContext
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import java.util.Properties
import org.apache.log4j.{Level, Logger}
object SparkOnMysql {

def main(args: Array[String]) {
Logger.getLogger("org").setLevel(Level.ERROR)
val sparkConf = new SparkConf().setMaster("local").setAppName("spark sql test");
val sc = new SparkContext(sparkConf);
val sqlContext = new SQLContext(sc);

//1. 不指定查询条件
//这个方式链接MySql的函数原型是：
//我们只需要提供Driver的url，需要查询的表名，以及连接表相关属性properties。下面是具体例子：
val url = "jdbc:mysql://localhost:3306/zykcmp?user=root&password=123456";
val prop = new Properties();
val df = sqlContext.read.jdbc(url, "user", prop);
println("第一种方法输出："+df.count());
println("1.------------->" + df.count());
println("1.------------->" + df.rdd.partitions.size);

//2.指定数据库字段的范围
//这种方式就是通过指定数据库中某个字段的范围，但是遗憾的是，这个字段必须是数字，来看看这个函数的函数原型：
/* def jdbc(
url: String,
table: String,
columnName: String,
lowerBound: Long,
upperBound: Long,
numPartitions: Int,
connectionProperties: Properties): DataFrame*/
//前两个字段的含义和方法一类似。columnName就是需要分区的字段，这个字段在数据库中的类型必须是数字；
//lowerBound就是分区的下界；upperBound就是分区的上界；numPartitions是分区的个数。同样，我们也来看看如何使用：
val lowerBound = 1;
val upperBound = 6;
val numPartitions = 2;
val url1 = "jdbc:mysql://localhost:3306/zykcmp?user=root&password=123456";
val prop1 = new Properties();
val df1 = sqlContext.read.jdbc(url1, "user", "pic", lowerBound, upperBound, numPartitions, prop1);
println("第二种方法输出：" + df1.rdd.partitions.size);
df1.collect().foreach(println)

/*这个方法可以将iteblog表的数据分布到RDD的几个分区中，分区的数量由numPartitions参数决定，在理想情况下，每个分区处理相同数量的数据，我们在使用的时候不建议将这个值设置的比较大，因为这可能导致数据库挂掉！但是根据前面介绍，这个函数的缺点就是只能使用整形数据字段作为分区关键字。
这个函数在极端情况下，也就是设置将numPartitions设置为1，其含义和第一种方式一致。*/

//3.根据任意字段进行分区
//基于前面两种方法的限制， Spark 还提供了根据任意字段进行分区的方法，函数原型如下：
/*def jdbc(
url: String,
table: String,
predicates: Array[String],
connectionProperties: Properties): DataFrame*/
//这个函数相比第一种方式多了predicates参数，我们可以通过这个参数设置分区的依据，来看看例子：
//这个函数相比第一种方式多了predicates参数，我们可以通过这个参数设置分区的依据，来看看例子：
val predicates = Array[String]("password <= 5", "password > 5 ")
val url2 = "jdbc:mysql://localhost:3306/zykcmp?user=root&password=123456"
val prop2 = new Properties()
val df2 = sqlContext.read.jdbc(url, "user", predicates, prop2)
println("第三种方法输出："+df2.rdd.partitions.size+","+predicates.length);
df2.collect().foreach(println)
//最后rdd的分区数量就等于predicates.length。


//4.通过load获取
//Spark还提供通过load的方式来读取数据。
val url3 = "jdbc:mysql://localhost:3306/zykcmp?user=root&password=123456"
val df3 = sqlContext.read.format("jdbc").option("url", url).option("dbtable", "user").load()
println("第四种方法输出："+df3.rdd.partitions.size);
df.collect().foreach(println)

sc.stop()
}
}