pyspark 写入MySQL报错 An error occurred while calling o45.jdbc.: scala.MatchError: null 解决方案

本文介绍了一个关于使用PySpark连接MySQL并写入数据时遇到的错误及其解决方案。错误出现在尝试将Spark DataFrame写入MySQL数据库时,并给出了详细的错误日志及正确的代码实现。

当我尝试使用pySpark连接MySQL,将简单的spark dataframe写入MySQL数据时报错,

py4j.protocol.Py4JJavaError: An error occurred while calling o45.jdbc.: scala.MatchError: null 错误解决方案

(1)错误提示:

Fri Jul 13 16:22:56 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to 'false'. You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide truststore for server certificate verification.
Traceback (most recent call last):
  File "/Users/a6/Downloads/speiyou_di/hive/log_task/111.py", line 47, in <module>
    df1.write.mode("append").jdbc(url="jdbc:mysql://localhost:3306/spark_db?user=root&password=yyz!123456", table="test_person", properties={"driver": 'com.mysql.jdbc.Driver'})
  File "/Library/Python/2.7/site-packages/pyspark/sql/readwriter.py", line 765, in jdbc
    self._jwrite.mode(mode).jdbc(url, table, jprop)
  File "/Library/Python/2.7/site-packages/py4j-0.10.6-py2.7.egg/py4j/java_gateway.py", line 1160, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/Library/Python/2.7/site-packages/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/Library/Python/2.7/site-packages/py4j-0.10.6-py2.7.egg/py4j/protocol.py", line 320, in get_return_value
    format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o45.jdbc.
: scala.MatchError: null
	at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:63)
	at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:426)
	at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:215)
	at org.apache.spark.sql.DataFrameWriter.jdbc(DataFrameWriter.scala:446)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
	at py4j.Gateway.invoke(Gateway.java:280)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.GatewayConnection.run(GatewayConnection.java:214)
	at java.lang.Thread.run(Thread.java:748)

(2)出错代码:

# !/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# 设置spark_home
import os
os.environ["SPARK_HOME"] = "/Users/a6/Applications/spark-2.1.0-bin-hadoop2.6"

from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext(appName="pyspark mysql demo")
sqlContext = SQLContext(sc)

# 创建连接获取数据

# 本地测试
dataframe_mysql=sqlContext.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark_db").option("dbtable", "test_person").option("user", "root").option("password", "yyz!123456").load()

# 输出数据
print "\nstep1 、dataframe_mysql.collect()\n",dataframe_mysql.collect()
dataframe_mysql.registerTempTable("temp_table")
print dataframe_mysql.show()
print dataframe_mysql.count()

print "step 2、 准备待写入的数据"

from pyspark.sql.types import *

# user defined schema for json file.
schema = StructType([StructField("name", StringType()), StructField("age", IntegerType())])

# loading the contents of the json to the data frame with the user defined schema for json data.
d = [{'name': 'Alice1', 'age': 1}, {'name': 'tome1', 'age': 20}]
df1 = sqlContext.createDataFrame(d, schema)

# display the contents of the dataframe.
print df1.show()

# display the schema of the dataframe.
print df1.printSchema()

print "step3、写入数据"

# 本地测试
#  出错代码A
df1.write.mode("append").jdbc(url="jdbc:mysql://localhost:3306/spark_db?user=root&password=yyz!123456", table="test_person", properties={"driver": 'com.mysql.jdbc.Driver'})

# 正确代码B
#df1.write.jdbc(mode="overwrite", url="jdbc:mysql://localhost:3306/spark_db?user=root&password=yyz!123456", table="test_person", properties={"driver": 'com.mysql.jdbc.Driver'})

print "step4、写入成功,读取验证数据"
df1.show()

# 本地测试
dataframe_mysql=sqlContext.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark_db").option("dbtable", "test_person").option("user", "root").option("password", "yyz!123456").load()

# 输出数据
print "dataframe_mysql.collect()\n",dataframe_mysql.collect()

print "step 5、 所有执行成功"

(3)解决方案

        将【出错代码A】换成【正确代码B】,即可执行成功。比较可知,我们只是轻微做了调整。

(4)错误场景还原需要

首先,需要在本地创建数据库spark_db,同时创建test_person数据,具体如下:

create database spark_db;

CREATE TABLE `test_person` (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) DEFAULT NULL,
  `age` int(3) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

insert into test_person(name,age) values('yyz',18);

参考:https://stackoverflow.com/questions/49391933/pyspark-jdbc-write-error-an-error-occurred-while-calling-o43-jdbc-scala-matc

<think>我们正在解决一个Py4JJavaError错误,该错误发生在调用o181.jdbc时。根据引用[1]中的类似错误(py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo205.sql)以及其解决方法(权限问题),我们可以推测这个错误可能与权限有关。同时,引用[3]提到了一个与表工厂相关的错误(NoMatchingTableFactoryException),引用[4]提到了版本不一致的问题。因此,我们需要从多个方面来排查。根据错误信息“Py4JJavaErrorcallingo181.jdbc”,这通常发生在使用PySpark时尝试通过JDBC连接数据库。可能的原因包括:1.数据库驱动未正确加载(未在类路径中)2.连接参数(URL、用户名、密码等)错误3.数据库连接权限问题(如网络权限、数据库用户权限)4.版本兼容性问题(如JDK版本、数据库驱动版本与Spark版本不兼容)我们参考引用[2]中提到的类路径(classpath)问题,以及引用[4]中版本不一致的问题,可以按以下步骤解决:步骤1:确保数据库驱动在类路径中在Spark中,使用JDBC连接数据库需要将对应的JDBC驱动jar包添加到类路径。可以通过以下方式之一:-在启动Spark时通过`--jars`参数指定jar包路径,例如:`--jars/path/to/mysql-connector-java-5.1.49.jar`-在代码中通过`spark.driver.extraClassPath`和`spark.executor.extraClassPath`配置步骤2:检查连接参数确保JDBCURL、用户名和密码正确。例如,MySQL的URL格式为:`jdbc:mysql://<host>:<port>/<database>`步骤3:检查网络和数据库权限-确保Spark集群可以访问数据库服务器(网络连通)-检查数据库用户是否有从Spark集群IP地址连接的权限步骤4:检查版本兼容性-确保数据库驱动版本与数据库服务器版本兼容-确保Spark版本与JDK版本兼容(如引用[4]提到,版本不一致会导致错误)根据引用[1]的解决方法,如果是权限问题(如临时目录权限),则需要检查Spark作业运行时的临时目录权限。可以设置`spark.local.dir`为有权限的目录,或者修改目录权限。另外,引用[3]中的错误提示没有找到合适的表工厂,这可能是因为在连接数据库时,Flink(或Spark)没有找到对应的JDBC连接器实现。因此,确保添加了正确的连接器依赖。针对PySpark,示例代码可能如下:```pythonfrompyspark.sqlimportSparkSessionspark=SparkSession.builder\.appName("JDBCExample")\.config("spark.driver.extraClassPath","/path/to/mysql-connector-java-5.1.49.jar")\.getOrCreate()jdbc_url="jdbc:mysql://localhost:3306/mydatabase"connection_properties={"user":"username","password":"password","driver":"com.mysql.jdbc.Driver"}df=spark.read.jdbc(url=jdbc_url,table="mytable",properties=connection_properties)```如果问题仍然存在,请检查具体的错误堆栈,因为错误信息中可能包含更具体的异常原因。总结解决方案:1.添加数据库驱动jar包到类路径。2.验证连接参数(URL、用户名、密码、驱动类名)。3.检查数据库服务器和网络权限。4.检查版本兼容性(JDK、Spark、数据库驱动)。5.检查临时目录权限(参考引用[1]的解决方法,设置`spark.local.dir`或修改目录权限)。如果上述步骤不能解决问题,请提供完整的错误堆栈信息以便进一步分析。相关问题:1.如何将外部jar包添加到PySpark作业中?2.如何调试PySpark中的JDBC连接问题?3.PySpark中连接MySQL需要哪些步骤?4.如何设置Spark的临时目录以避免权限问题?</think>### 解决 Py4JJavaError: Calling o181.jdbc 错误 这个错误通常发生在 PySpark 连接外部数据库(如 MySQL、PostgreSQL 等)时,可能由以下原因导致: #### 1. **JDBC 驱动未加载** [^2][^3] - **问题**:缺少数据库驱动 JAR 包 - **解决方案**: ```python spark = SparkSession.builder \ .config("spark.driver.extraClassPath", "/path/to/mysql-connector-java-8.0.28.jar") \ .getOrCreate() ``` 或提交作业时添加驱动: ```bash spark-submit --jars mysql-connector-java-8.0.28.jar your_script.py ``` #### 2. **权限问题** [^1] - **问题**:Spark 临时目录权限不足 - **解决方案**: - 检查 `spark.local.dir` 或 `hive.exec.scratchdir` 路径权限: ```bash hadoop fs -chmod -R 777 /tmp/hive ``` - 或在 `spark-defaults.conf` 中修改路径: ```properties spark.local.dir=/home/user/tmp hive.exec.scratchdir=/home/user/hive_tmp ``` #### 3. **版本不兼容** [^4] - **问题**:JDK/Scala/驱动版本与集群不匹配 - **解决方案**: - 检查集群环境版本: ```bash spark-submit --version # 查看 JDK/Scala 版本 ``` - 确保本地环境与集群一致(如 JDK 1.8 + Scala 2.12) #### 4. **连接配置错误** - **正确 JDBC 配置示例**: ```python jdbc_url = "jdbc:mysql://host:3306/db?useSSL=false" properties = { "user": "username", "password": "password", "driver": "com.mysql.jdbc.Driver" } df = spark.read.jdbc(url=jdbc_url, table="table", properties=properties) ``` **关键检查**: - 网络连通性(telnet host 3306) - 数据库白名单(确保 Spark 节点 IP 被允许访问) - `useSSL=false` 参数(测试环境可临时关闭 SSL) #### 5. **依赖冲突** - **问题**:多个驱动 JAR 冲突 - **解决**:使用 `--packages` 指定标准依赖: ```bash spark-submit --packages mysql:mysql-connector-java:8.0.28 your_script.py ``` > **调试建议**: > 1. 在 Spark 日志中搜索 `Caused by:` 定位原始错误 > 2. 先使用 `spark-shell` 测试 JDBC 连通性 > 3. 检查数据库服务端日志(如 MySQL 的 `error.log`)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值