通过copyIn向PostgreSQL或Greenplum写入数据

最新推荐文章于 2024-04-17 17:08:01 发布

原创

最新推荐文章于 2024-04-17 17:08:01 发布 · 2.5k 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了在面临百万级数据写入PostgreSQL和Greenplum时，传统方法如Spark和jdbc的性能不佳，而采用PG的copyIn方法实现了秒级写入。分享了相关pom依赖及demo代码，提醒Greenplum虽然能用PG依赖进行建表和写入，但超过30列查询会卡住，建议主要使用GP自己的依赖。

最近需要向PG写入百万级的数据，分别尝试了Spark、jdbc写法，发现性能都不是特别好，差不多都得花上几分钟，有可能是PG本身没有进行优化，或者编程过程中有欠缺的地方。总之，达不到业务需求。后面改用PG的copyIn方法，发现写入百万数据只需要秒级别。下面将demo代码附上，与君共享，有不足的地方，万望指正。

pom依赖：

<dependency>
    <groupId>org.postgresql</groupId>
    <artifactId>postgresql</artifactId>
    <version>42.2.6</version>
</dependency>

注意：虽然GP的依赖和PG有区别（具体区别请各位自行查阅资料），但是GP的依赖包里面并没有copyIn方法。所以如果要用copyIn方法向GP中写入数据，依赖要用PG的。

导入方法：

import java.io.{ByteArrayInputStream, InputStream}
import java.nio.charset.StandardCharsets
import java.sql.DriverManager
import org.postgresql.copy.CopyManager
import org.postgresql.core.BaseConnection

demo代码：

object CopyInTest {
  def main(args: Array[String]): Unit = {
    val tableName = "copyIn_test"
    val data: Array[Array

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

陈序猿张

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PostgreSQL系列文章---PostgreSQL14版本新特性

相信自己有能力，那么你就真的会有！

02-21

2663

PostgreSQL系列文章—PostgreSQL14版本新特性 PostgreSQL系列文章—PostgreSQL14版本新特性文章目录PostgreSQL系列文章---PostgreSQL14版本新特性前言一、PostgreSQL14版本新特性1.1 数据类型1.2 函数1.3 管理功能1.4 复制和恢复1.5 索引总结前言本篇文章主要介绍PostgreSQL14版本的新特性提示：以下是本篇文章正文内容，下面案例可供参考一、PostgreSQL14版本新特性 1.1 数据类型基于已

Hologres揭秘：优化COPY，批量导入性能提升5倍+

阿里云云栖号

07-02

1292

简介：揭秘Hologres优化COPY的技术原理，实现批量导入性能提升5倍+ Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构，为业务提供实时决策的能力，让大数据发挥出更大的商业价值。从阿里集团诞生到云上商业化，随着业务的发展和技术的演进，Hologres也在持续不断优化核心技术竞争力，为了让大家

参与评论您还未登录，请先登录后发表或查看评论

Flink程序Copy方式写入数据到GreenPlum

最新发布

h6lkj的专栏

04-17

856

Flink程序Copy方式写入数据到GreenPlum

spark写入pg_将Spark数据框写入Postgres数据库

weixin_35607472的博客

01-14

1207

The spark cluster setting is as follows:conf['SparkConfiguration'] = SparkConf() \.setMaster('yarn-client') \.setAppName("test") \.set("spark.executor.memory", "20g") \.set("spark.driver.maxResultSize...

PostgreSQL copy协议与事务

Focus on PostgreSQL

07-14

6671

今天看到有人问“PostgreSQL中的copy命令是在同一个事务中执行的吗”。其实我想之所以提出这个问题，主要是想知道在执行copy语句时如果出现错误导致中断，那么数据是会导出/入部分，还是会像事务一样回滚。为了解答这个问题，我们先来简单了解下copy协议。什么是copy协议？我们使用客户端和数据库进行交互时，都必须要遵守PostgreSQL数据库的通信协议才可以。让我们比较熟悉的协议有TCP/IP 协议和 HTTP 协议等。而PostgreSQL在TCP/IP 协议之上实现了一套基于消息的通信协议

比pgload更快更方便写入大数据量至Greenplum的Greenplum-Spark Connector

ylltw01的博客

03-08

3311

前序 Greenplum是目前比较优秀的mpp数据库，其官方推荐了几种将外部数据写入Greenplum方式，包含：通用的Jdbc，pgcopy和pgload以及Pivotal Greenplum-Spark Connector等。 Jdbc：Jdbc方式，写大数据量会很慢。 pgcopy：其中pgcopy是及其不推荐的一种，因为其写数据必须经过Greenplum的master，因此也只建议小数据...

Greenplum 数据同步方案—PostgreSQL技术文章晟数

weixin_45694422的博客

04-13

1749

postgresql主从备份_Postgresql数据库主从流复制

weixin_39532628的博客

01-28

432

由于某个项目前期资源紧张，使用的Postgresql单节点数据库；为解决项目数据库安全性问题，小蜗牛应要求整理Postgresql数据库主从高可用方案，以下操作为部署主从流复制测试过程，后续整理pgpool高可用、负载均衡方案。。一、安装依赖yum install -y gcc-c++ zlib-devel vim openssh-clients二、安装PGtar zxvf postgresql-...

构建Greenplum低延时流数据处理管道

Madlib 是一个开源的、内置于 Greenplum 的机器学习库，允许用户直接在数据库内部执行回归、分类、聚类、图分析、空间分析等多种算法，避免了数据导出带来的延迟和安全风险，真正实现了“数据不动模型动”的 In-...

spark streaming 写入postgres

onway_goahead的博客

07-25

1105

在上一篇文章http://www.jianshu.com/p/a73c0c95d2fe 我们写了如何通过Spark Streaming向数据库中插入数据。可能你已经发现了，数据是逐条插入数据库的，效率底下。那么如何提高插入数据库的效率呢？数据库写是个IO任务，并行不一定能够加速写入数据库的速度。我们主要说下批量提交和Bulk Copy Insert的方式。 2.批量提交批量提交，就是JD...

java使用copy in 的方式把数据导入postgres或greenplum

偶是一只小小鸟~

02-18

1万+

copy inpostgres导入数据的时候可以使用cpoy 命令进行数据导入,如果使用java操作copy命令则需要使用postgres提供的jdbc驱动中的CopyManager来实现封装一下 public class PGCopyInUtils { /** * 将表中的数据导出到本地文件 * * @param connection 连接 *

Greenplum——copy insert的Java工具类

Carson073的博客

08-12

837

【代码】Greenplum copy in的Java工具类。

postgresql copy from、copy to

热门推荐

upupfeng的博客

10-02

1万+

使用postgresql官方提供的copy来进行数据的高效导入导出，分别介绍命令行使用方法和Java中的使用方法。

postgresql的CopyManager流式数据入库

ProMonkey_chen的博客

10-06

1万+

maven依赖如下： <dependency> <groupId>org.postgresql</groupId> <artifactId>postgresql</artifactId> <version>42.2.5</version> </dependency> <dependen

greenplum与postgresql的copy命令使用

Frank20150911的博客

08-13

1809

greenplum基础是postgresql，可以通用首先，copy的命令只能是超级管理员使用 Copy的作用是复制数据在数据表和文件之间。 1、将文件中的数据复制到表中： COPY table_name [ ( column_name [, ...] ) ] FROM { 'filename' | PROGRAM 'command' | STDIN } [ [ WITH ...

DataX二次开发——（5）基于CopyIn原理新增greenplumwriter

Carson073的博客

08-12

1748

GreenplumWriter插件实现了写入数据到 Greenplum Database 主库目的表的功能。在底层实现上，GreenplumWriter通过JDBC连接远程 Greenplum 数据库，并执行相应的 Copy FROM 语句将数据写入 Greenplum。GreenplumWriter面向ETL开发工程师，他们使用GreenplumWriter从数仓导入数据到Greenplum。同时 GreenplumWriter亦可以作为数据迁移工具为DBA等用户提供服务。......

Java使用Postgresql的Copy功能大量数据保存数据库

fracong的博客

03-10

1206

java使用Postgresql的copy保存数据库, 采取上传文件和字符串内容形式

PostgreSQL：Java使用CopyManager实现客户端文件COPY导入

xidajiancun

09-27

625

在MySQL中，可以使用LOAD DATA INFILE和LOAD DATA LOCAL INFILE两种方式导入文本文件中的数据到数据库表中，速度非常快。其中LOAD DATA INFILE使用的文件要位于MySQL所在服务器上，LOAD DATA LOCAL INFILE则使用的是客户端的文件。 LOAD DATA INFILE 'data.txt' INTO TABLE table_nam...

POSTGRESQL COPY 命令原理与加速数据导入提高速度200%以上

sql server的专栏

04-24

3505

开头还是介绍一下群，如果感兴趣polardb ,mongodb ,mysql ,postgresql,redis 等有问题，有需求都可以加群群内有各大数据库行业大咖，CTO，可以解决你的问题。加群请联系 liuaustin3 ，在新加的朋友会分到2群（共700人左右 1 + 2）。最近有人问，从ORACLE 迁移项目到POSTGRESQL 在之前的项目中有将表insert into sele...

Apache Spark高效集成PostgreSQL与GreenPlum数据源

2. 编程接口：该库为编程接口提供了DataFrame API，因此可以在Spark的DataFrame API上使用标准的操作来读取和写入PostgreSQL和GreenPlum数据库。 3. 依赖项：在项目中使用spark-postgres库，需要将相应的依赖项加入...