sparkStreaming往数据库写数据时候字段注释消失

最新推荐文章于 2025-05-21 15:52:24 发布

原创最新推荐文章于 2025-05-21 15:52:24 发布 · 353 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #spark

sparkStreaming 专栏收录该内容

1 篇文章

订阅专栏

本文探讨了使用Spark Streaming向数据库写入数据时遇到的问题，即字段注释消失及数据类型变化。分析了问题产生的原因是由于使用了overwrite模式，介绍了如何通过设置truncate属性为true来解决此问题。

问题描述：sparkStreaming往数据库中写入数据，我手动给字段加上注释，但是等下个批次数据来临时候，字段注释就消失了，字段的数据类型也改变了。试了好几次都是这样。

原因：写数据库时候我用的是overwrite方式写入，overwrite是把数据删除，把表删除，然后重新建表，重新写入数据。所以注释会消失的，数据类型也会改变。append不会出现这个问题。

解决方法：很简单，设置个属性就行了。


writeNowDF.write.format("jdbc").option("url",url).option("driver",driver).option("dbtable",nowTable).option("user",user).option("password",password).option("truncate",true).mode("overwrite").save()

重点在于truncate这个属性设置为true就可以了。他只会删除表数据，不会删除表，这样注释就不会消失了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

怎么全部重名了

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark覆盖写入mysql表但不改变已有的表结构

主要分享大数据相关的知识，如Spark、Hudi

12-02

2097

前言本文记录Spark如何在表存在的情况时覆盖写入mysql但不修改已有的表结构，并进行主要的源码跟踪以了解其实现原理。主要场景为先用建表语句建好mysql表，然后用spark导入数据，可能会存在多次全表覆写导入的情况。代码已上传github 主要的参数为.option(“truncate”, true)，可以参考Spark官网http://spark.apache.org/docs/latest/sql-data-sources-jdbc.html 主要代码逻辑为，读取csv，进行日期转化，然后覆盖

Spark通过修改DataFrame的schema给表字段添加注释

主要分享大数据相关的知识，如Spark、Hudi

09-03

8123

我的原创地址：https://dongkelun.com/2018/08/20/sparkDfAddComments/ 1、需求背景通过Spark将关系型数据库（以Oracle为例）的表同步的Hive表，要求用Spark建表，有字段注释的也要加上注释。Spark建表，有两种方法： * 用Spark Sql，在程序里组建表语句，然后用Spark.sql(“建表语句”)建表，这种方法麻烦的地方......

参与评论您还未登录，请先登录后发表或查看评论

Spark用法：关于写入Mysql表Append Mode数据被清空的解决办法

qq_40593230的博客

10-25

2580

前提：小编自己的环境是（CDH）Spark2.2.0 Scala2.11.8 起因：当使用Append追加写入mysql类型的数据库，spark默认是把之前存在的数据清空，然后再写入数据；这让我们很无语，明明是Append，你却给我overwrite 解决：修改源码，重写两个类（只要把这两个类放到自己项目中，无需修改spark底层源码） 1.JdbcUtils 原本是：if (mode...

Spark SQL将数据写入Mysql表的一些坑

05-21

872

本文介绍了使用Spark Streaming从Kafka消费数据并写入MySQL的完整流程。系统架构包含Kafka作为数据源、Spark Streaming进行实时处理、MySQL存储结果数据。实验步骤包括：创建MySQL表结构、配置Maven项目依赖、编写Scala代码实现数据消费与存储功能。代码部分展示了如何定义Employee样例类、配置Kafka消费者参数、建立Spark Streaming上下文，以及实现从Kafka主题消费员工数据，经处理后存入MySQL数据库的完整逻辑。该方案适用于构建实时数据

spark streaming读kafka写elasticsearch

weixin_42473019的博客

03-10

644

spark streaming作为当下依然火热的流计算引擎，对于kafka和elasticsearch都有很好的api支持，以下是笔者在实际生产环境中的一个案例。首先说一下几个重点： kafka消费offset使用mysql保存，一开始使用了ScalikeJDBC这个包来实现对数据库的访问，后来项目里同时有clickhouse的JDBC工具类，两者之间产生冲突，所以就自己写了原生的mysql ...

Spark Streaming项目实战

06-04

1557

初始实时流处理需求：统计主站每个（指定）课程访问的客户端、地域信息分布地域：ip转换， SparkSQL项目实战客户端：useragent获取， hadoop基础课程实现步骤：课程编号、IP信息、useragent 进行相应的统计分析操作：MR/Spark 项目框架：日志收集： Flume 离线分析：MR/Spark 统计结果图形化展示问题：小时级别 10分钟 ...

spark：sparkstreaming 0.10版本案例1：从 kafka 采集数据，并存储到 Hbase Demo示例 / 案例2：实时更新mysql

不花的花和尚的博客

06-19

1112

pom： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/

基于Spark Streaming的实时点击量统计系统

基于Spark Streaming的实时点击量统计是一个典型的流式数据处理应用场景，广泛应用于互联网广告、电商网站、新闻门户等需要对用户行为进行实时监控和分析的系统中。该项目以Apache Spark Streaming为核心技术框架，...

SparkSQL的jdbc操作及java的api操作

03-19

关于SparkSQL的jdbc操作及java的api操作的Idea maven工程代码。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

mysql表结构消失_mysql 表结构损坏

weixin_29422697的博客

01-19

540

Cause: java.sql.SQLException: Table './hr_2_job/seeker_wish_area' is marked as crashed and last (automatic?) repair failed; uncategorized SQLException for SQL []; SQL state [HY000]; error code [144]; ...

pyspark overwrite oracle truncate修改了表结构

lbl251的博客

09-27

519

【代码】pyspark overwrite oracle truncate修改了表结构。

Spark jdbc mode=overwrite保留table原结构

qq_43536051的博客

06-27

833

spark jdbc save truncate

Spark Structured Streaming:窗口聚合

高矮

07-31

1065

//聚合1小时的数据量 val windowCounts = name.groupBy( window($"create_date", "60 minutes", "60 minutes") ).count().orderBy("window") //写到控制台 windowCounts.writeStream.outputMode("complet...

ogg oracle到hive,利用Spark实现Oracle到Hive的历史数据同步

weixin_31907307的博客

04-03

946

1、需求背景和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样，通过Spark将关系型数据库(以Oracle为例)的表同步的Hive，这里讲的只是同步历史数据，不包括同步增量数据。2、Oracle和Hive的字段类型对应利用Spark的字段类型自动匹配，本来以为Spark匹配的不是很好，只是简单的判断一下是否为数字、字符串，结果经验证，Spark可以获取到Oracl...

spark jdbc操作

qq_21159963的博客

12-09

2823

1.全量读表下面代码是全量读表，相当于select * from dbtest.test import org.apache.spark.sql.SparkSession object SQLDataSourceExample { def main(args: Array[String]) { val spark = SparkSession .builder ...