pyspark 写入MySQL报错 An error occurred while calling o45.jdbc.: scala.MatchError: null 解决方案

本文介绍了一个关于使用PySpark连接MySQL并写入数据时遇到的错误及其解决方案。错误出现在尝试将Spark DataFrame写入MySQL数据库时,并给出了详细的错误日志及正确的代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

当我尝试使用pySpark连接MySQL,将简单的spark dataframe写入MySQL数据时报错,

py4j.protocol.Py4JJavaError: An error occurred while calling o45.jdbc.: scala.MatchError: null 错误解决方案

(1)错误提示:

Fri Jul 13 16:22:56 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to 'false'. You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide truststore for server certificate verification.
Traceback (most recent call last):
  File "/Users/a6/Downloads/speiyou_di/hive/log_task/111.py", line 47, in <module>
    df1.write.mode("append").jdbc(url="jdbc:mysql://localhost:3306/spark_db?user=root&password=yyz!123456", table="test_person", properties={"driver": 'com.mysql.jdbc.Driver'})
  File "/Library/Python/2.7/site-packages/pyspark/sql/readwriter.py", line 765, in jdbc
    self._jwrite.mode(mode).jdbc(url, table, jprop)
  File "/Library/Python/2.7/site-packages/py4j-0.10.6-py2.7.egg/py4j/java_gateway.py", line 1160, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/Library/Python/2.7/site-packages/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/Library/Python/2.7/site-packages/py4j-0.10.6-py2.7.egg/py4j/protocol.py", line 320, in get_return_value
    format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o45.jdbc.
: scala.MatchError: null
	at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:63)
	at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:426)
	at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:215)
	at org.apache.spark.sql.DataFrameWriter.jdbc(DataFrameWriter.scala:446)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
	at py4j.Gateway.invoke(Gateway.java:280)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.GatewayConnection.run(GatewayConnection.java:214)
	at java.lang.Thread.run(Thread.java:748)

(2)出错代码:

# !/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# 设置spark_home
import os
os.environ["SPARK_HOME"] = "/Users/a6/Applications/spark-2.1.0-bin-hadoop2.6"

from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext(appName="pyspark mysql demo")
sqlContext = SQLContext(sc)

# 创建连接获取数据

# 本地测试
dataframe_mysql=sqlContext.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark_db").option("dbtable", "test_person").option("user", "root").option("password", "yyz!123456").load()

# 输出数据
print "\nstep1 、dataframe_mysql.collect()\n",dataframe_mysql.collect()
dataframe_mysql.registerTempTable("temp_table")
print dataframe_mysql.show()
print dataframe_mysql.count()

print "step 2、 准备待写入的数据"

from pyspark.sql.types import *

# user defined schema for json file.
schema = StructType([StructField("name", StringType()), StructField("age", IntegerType())])

# loading the contents of the json to the data frame with the user defined schema for json data.
d = [{'name': 'Alice1', 'age': 1}, {'name': 'tome1', 'age': 20}]
df1 = sqlContext.createDataFrame(d, schema)

# display the contents of the dataframe.
print df1.show()

# display the schema of the dataframe.
print df1.printSchema()

print "step3、写入数据"

# 本地测试
#  出错代码A
df1.write.mode("append").jdbc(url="jdbc:mysql://localhost:3306/spark_db?user=root&password=yyz!123456", table="test_person", properties={"driver": 'com.mysql.jdbc.Driver'})

# 正确代码B
#df1.write.jdbc(mode="overwrite", url="jdbc:mysql://localhost:3306/spark_db?user=root&password=yyz!123456", table="test_person", properties={"driver": 'com.mysql.jdbc.Driver'})

print "step4、写入成功,读取验证数据"
df1.show()

# 本地测试
dataframe_mysql=sqlContext.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark_db").option("dbtable", "test_person").option("user", "root").option("password", "yyz!123456").load()

# 输出数据
print "dataframe_mysql.collect()\n",dataframe_mysql.collect()

print "step 5、 所有执行成功"

(3)解决方案

        将【出错代码A】换成【正确代码B】,即可执行成功。比较可知,我们只是轻微做了调整。

(4)错误场景还原需要

首先,需要在本地创建数据库spark_db,同时创建test_person数据,具体如下:

create database spark_db;

CREATE TABLE `test_person` (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) DEFAULT NULL,
  `age` int(3) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

insert into test_person(name,age) values('yyz',18);

参考:https://stackoverflow.com/questions/49391933/pyspark-jdbc-write-error-an-error-occurred-while-calling-o43-jdbc-scala-matc

<think>好的,我现在遇到了一个错误信息:“An I/O error occurred while seeding to the backend. Call getNextException to see other errors in the batch”。首先,我需要理解这个错误的大致含义。看起来这是一个与数据库操作相关的I/O错误,可能是在批量处理数据时发生的。 接下来,我应该考虑可能的原因。I/O错误通常涉及输入输出问题,比如数据库连接中断、网络不稳定、磁盘空间不足或者权限问题。另外,批量处理时可能数据量过大,导致超时或资源耗尽。 然后,我需要思考如何进一步诊断这个问题。根据错误提示,调用getNextException可以查看批次中的其他错误,这可能提供更详细的错误信息。因此,我应该检查代码中是否正确捕获并处理了所有异常,尤其是后续的异常。 另外,检查数据库连接是否稳定,确认网络没有问题。查看数据库服务器的日志,可能会有更详细的错误记录。同时,验证批量操作的数据是否有效,比如是否有特殊字符、数据格式是否正确,或者是否违反了数据库约束,如主键冲突、外键约束等。 还需要考虑资源限制,比如数据库的连接池是否足够,是否有足够的内存和处理能力来处理批量操作。调整批量提交的大小,分批次处理可能有助于避免超时或资源不足的问题。 最后,根据收集到的信息,逐步排除可能的原因,修复代码或调整配置,确保数据库操作能够正常执行。如果问题依然存在,可能需要联系数据库管理员或查阅相关文档和社区寻求帮助。</think>这个错误信息通常出现在Java应用程序与PostgreSQL数据库交互时,尤其是在执行批量操作(如批量插入、更新)的过程中出现了输入/输出异常。以下是问题分析和解决步骤: --- ### **错误原因分析** 1. **数据库连接中断** - 网络波动或数据库服务器重启导致连接丢失 - 防火墙/安全组拦截了数据库请求 2. **资源限制** - 数据库连接池耗尽(如HikariCP抛出的超时) - 内存不足或磁盘空间已满 3. **数据问题** - 批量操作中包含非法数据(如格式错误、违反约束) - 单个批次数据量过大导致超时 4. **权限或配置问题** - 数据库用户权限不足 - PostgreSQL配置限制(如`max_allowed_packet`过小) --- ### **排查步骤** 1. **查看完整错误链** ```java try { // 批量操作代码 } catch (SQLException e) { while (e != null) { System.err.println("Error message: " + e.getMessage()); e = e.getNextException(); // 关键:获取批次中的其他错误 } } ``` 通过`getNextException()`遍历所有异常,定位具体失败的操作。 2. **检查网络和连接** - 使用`SELECT 1`测试数据库连通性 - 查看数据库服务器日志(默认路径:`/var/log/postgresql/postgresql-版本-main.log`) 3. **验证数据合法性** - 检查批量数据是否符合表约束(非空、唯一性、外键等) - 转义特殊字符(如单引号`'`需转换为`''`) 4. **调整批量操作参数** ```java // 示例:减少每批次提交量 int batchSize = 1000; for (int i = 0; i < dataList.size(); i++) { preparedStatement.addBatch(); if (i % batchSize == 0) { preparedStatement.executeBatch(); } } preparedStatement.executeBatch(); // 提交剩余数据 ``` 5. **优化数据库配置** - 增大连接池超时时间(如HikariCP的`connectionTimeout`) - 调整PostgreSQL参数: ```sql ALTER SYSTEM SET max_connections = 200; ALTER SYSTEM SET work_mem = '64MB'; ``` --- ### **典型解决方案** - **网络问题**:重启应用服务器或数据库,检查防火墙规则 - **数据问题**:添加日志输出实际执行的SQL语句 ```java // 启用JDBC日志(需驱动支持) DriverManager.setLogWriter(new PrintWriter(System.out)); ``` - **资源不足**:分批提交数据或升级服务器配置 --- 如果问题仍未解决,建议结合数据库日志和完整异常链进一步分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值