Spark 写出MySQL报错,java.sql.BatchUpdateException

本文介绍了当使用Spark DataFrame向MySQL数据库写入数据时遇到的一个常见错误:BatchUpdateException,并详细解释了错误产生的原因——DataFrame的列名重复。文中提供了一个具体的解决方案,包括如何调整DataFrame的结构以避免重复的列名。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark DataFrame 写出到MySQL时报如下错误:

java.sql.BatchUpdateException: Column ‘name’ specified twice at sun.reflect

原因: 写出的DataFrame 表结构和MySQL中创建的表结构不一致,
2个 DataFrame join 后的结果中有两列都是“name”列。

解决: 修改DataFrame写出结构。核心代码如下:

    val res1: Dataset[Row] = studentInfoDF.join(stu_scoresDF, 
      studentInfoDF.col("name") === stu_scoresDF.col("name"))
      .filter(stu_scoresDF.col("score") > 80)

    res1.show(false) 

    import  spark.implicits._
    val out: Dataset[(String, Int, String)] = res1.map(row => (row.getAs[String](0),
      row.getAs[Int](1),
      row.getAs[String](3)))
    out.toDF("name","age","score").write.mode("append").jdbc(url,"good_stu",prop)
### Java中解决主键重复导致的`BatchUpdateException` 当执行批量更新操作时,如果遇到 `java.sql.BatchUpdateException: Duplicate entry` 错误,则表明尝试插入的数据违反了数据库中的唯一约束条件。以下是针对该问题的具体解决方案: #### 数据库层面的原因分析 此错误通常由以下几个原因之一引起: 1. 插入的数据与现有记录冲突,违反了表上的唯一索引或主键约束[^3]。 2. 批量插入过程中未对数据进行去重处理,导致多次插入相同的关键字段组合[^4]。 #### 解决方案 ##### 方法一:提前校验数据唯一性 在向数据库提交批量写入请求前,在应用层实现数据验证逻辑。通过查询目标表确认待插入记录是否存在冲突项后再决定是否继续插入。例如可以采用如下SQL语句来判断某条记录是否已存在于指定列下: ```sql SELECT COUNT(*) FROM your_table WHERE unique_column = ? ``` 对于每一条即将被加入的新纪录都运行上述检查命令;只有在其返回值等于零时表示安全可插件否则跳过当前这条或者抛出自定义异常通知调用方存在潜在覆盖风险。 ##### 方法二:捕获并处理异常 允许失败但仍需完成其余部分的成功事务可以通过设置参数ignoreDuplicateKeyErrors=true让JDBC驱动忽略此类特定类型的错误而不中断整个批次流程。不过这种方法依赖于具体的RDBMS支持情况以及相应的连接属性配置方式可能有所不同因此需要查阅对应产品的官方文档获取确切做法[^2]。 另外一种通用策略是在程序内部手动捕捉到这个特殊的SQLException子类实例之后采取适当措施比如记录日志然后绕过有问题的那个元素接着往下走直到全部结束为止就像这样: ```java try { statement.executeBatch(); } catch (BatchUpdateException e) { int[] updateCounts = e.getUpdateCounts(); for(int i=0;i<updateCounts.length;i++) { if(updateCounts[i]==Statement.EXECUTE_FAILED){ System.out.println("Record "+(i+1)+" failed due to duplicate key."); } } } ``` ##### 方法三:调整业务设计模式 考虑改变现有的架构模型使得不再单纯依靠单一维度作为区分依据而是引入时间戳或者其他随机因子共同构成复合型标识符从而降低发生碰撞的概率同时也便于追踪历史版本变化轨迹[^1]。 --- ### 示例代码展示如何预防及应对这种情况的发生 下面给出了一段完整的示范代码片段展示了前面提到的一些技巧的实际运用场景: ```java import java.sql.*; public class BatchInsertExample { public static void main(String args[]) throws Exception{ String url="jdbc:mysql://localhost/testdb"; Connection conn=null; PreparedStatement pstmt=null; try{ Class.forName ("com.mysql.cj.jdbc.Driver").newInstance (); conn = DriverManager.getConnection(url,"root","password"); // Disable auto-commit mode. conn.setAutoCommit(false); String sql ="INSERT INTO devices(areaId, collectorCode,...) VALUES (?, ?, ...)"; pstmt =conn.prepareStatement(sql); List<Map<String,Object>> dataList=getDataList(); Set<String> existingKeys=new HashSet<>(); ResultSet rs=pstmt.executeQuery("select deviceCode from devices"); while(rs.next()){ existingKeys.add(rs.getString(1)); } boolean hasError=false; StringBuilder errorMessages=new StringBuilder(); for(Map<String,Object> data:dataList){ Object deviceCode=data.get("deviceCode"); if(existingKeys.contains(deviceCode)){ continue; // Skip duplicates silently or log warning message here. } setParameters(pstmt,data); pstmt.addBatch(); } try{ pstmt.executeBatch(); conn.commit(); }catch(BatchUpdateException bue){ hasError=true; int [] counts=bue.getUpdateCounts(); for(int count :counts ){ if(count==Statement.EXECUTE_FAILED){ errorMessages.append("Failed record "); } } conn.rollback(); } finally{ if(hasError){ throw new RuntimeException(errorMessages.toString()); } } }finally{ closeResources(conn,pstmt,null); } } private static void setParameters(PreparedStatement stmt , Map<String,Object> params)throws SQLException{ ... } private static void closeResources(Connection c, Statement s,ResultSet r){ .... } } ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值