PostgreSQL复制表列+GreenPlum更改分布键

最新推荐文章于 2024-10-25 21:50:09 发布

gldj

最新推荐文章于 2024-10-25 21:50:09 发布

阅读量9.4k

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_36646146/article/details/82144447

博客介绍了PostgreSQL表结构复制相关内容，列属性和数据拷贝时不包含约束、注释和序列，默认复制非空约束且无数据。若要复制索引、主键约束和唯一约束需加参数including indexes，还提及更改分布键及主键相关操作，如先删主键关联再更改等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考博客：https://blog.youkuaiyun.com/wlwlwlwl015/article/details/52493197

列属性和数据被拷贝，但不包含约束（如非空）、注释和序列

CREATE TABLE dest as SELECT * from src;

只复制表结构(默认复制非空约束)，没有数据

CREATE TABLE dest (like src);

如果希望索引、主键约束和唯一约束被复制的话，那么需要在后面加上参数including indexes（大小写无关）

CREATE TABLE dest (like src including indexes);

其他参数如下：

更改分布键

ALTER TABLE dest set distributed by(columname);

PS：若有主键，先删除主键关联，再更改

查询主键名，一般主键名都是表名 + _pkey 如表dest 主键名就是 dest_pkey

SELECT  a.conname FROM  pg_constraint as a, pg_class as b 
WHERE a.conrelid = b.oid AND a.contype = 'p'  AND b.relname = 'dest';

删除主键

ALTER TABLE dest DROP CONSTRAINT dest_pkey;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

gldj

关注关注

1
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【gp数据库】查询GP中某张表的分布键信息

banban_ping的博客

11-09

4516

本文参考 https://blog.youkuaiyun.com/sinat_35630008/article/details/82192574?spm=1001.2101.3001.6650.20&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-20.no_search_link&depth_1-utm_source=distribute.pc_relevant.

Greenplum数据分布和分区策略

Greenplum中文社区

03-12

3822

Greenplum是一个大规模并行处理数据库，它由一个master和多个segment组成，其数据按照设定的分布策略分布于各个segment上。数据表的单个行会被分配到一个或多个segment上，但是有这么多的segment，它到底会被分到哪个或哪些segment上呢？分布策略会告诉我们。分布策略在Greenplum 5中，有2种分布策略：哈希分布随机分布在Greenpl...

参与评论您还未登录，请先登录后发表或查看评论

GreenPlum改变表的分布策略

jordan的专栏

07-03

3781

创建一张表,在没有primary key 或者 unique key 的情况下，GreenPlum默认会把第一个column作为分布键 zwcdb=# create table tab01(id int,name varchar(20)); NOTICE: Table doesn't have 'DISTRIBUTED BY' clause -- Using colu

#高斯表修改分布键

码不停歇的博客

10-25

594

【代码】#高斯表修改分布键。

GP的分布键

cft980的博客

03-19

3552

gp的分布键主要功能就是为了避免数据倾斜： 1.分布键必须自己主动指定，不能使用默认分布键(建表语句中没写分布键) 2.分布键必须能够使数据均匀的分布到各个节点上我曾做过数据倾斜的操作环境：测试环境，建表的分布键为日期，对表没有进行压缩状态：进行数据抽数(向我自己建的表)，测试数据仓库只给了一天的，数据量过亿结果：一期数据全部怼到一个节点，占了1.6T的存储空间影响：崩掉了两个节点，对此表进行查询时跑死，truncate操作时也跑死 1.表是为了存储而生：gp表的分布键应该做到能使数据分布均匀的功

PostgreSQL - 外部表、分布键、父子表

热门推荐

袭冷

01-11

1万+

一、外部表在插入的数据较大时，可以通过外部表的方式，快速将数据'入库' CREATE EXTERNAL TABLE EXT_LOG_INFO ( -- 外部表关键字 EXTERNAL date integer, timestamp bigint, userid bigint, action integer, note character varying(2

历时两个月，Greenplum内核升级至PostgreSQL 9.6

Greenplum中文社区

11-08

691

Greenplum是基于PostgreSQL的MPP数据库。 2005年研发之初时Greenplum的内核版本是PostgreSQL 8，在201...

PostgreSQL GreenPlum HAWQ三者的关系及演变过程

YYDU_666的博客

06-27

1万+

这个日程安排同时也是我们公司核心团队的技术进阶史。公司创始团队成员有幸以核心开发者的角色参与，从单机版的关系型数据库（PostgreSQL），大规模并行处理（MPP）数据库（Greenplum Database）到SQL on Hadoop解决方案（Apache HAWQ），以及最新的SQL on Cloud数据仓库（HashData）。通过回顾这个技术演进的历程，我们将阐述如何一步一步地解决联机...

Postgresql事务和Greenplum中的两阶段提交

u013970710的博客

10-06

1704

PostgreSQL是当今最广泛应用的数据库系统(DBMS)之一。除了由于其具有优秀的性能、良好的兼容性之外，其完全开源的特性、完整的事务能力也是其中重要的原因。PostgreSQL支持完整的ACID特性，支持RC/RR/SSI等隔离级别。本文主要简化的介绍PG的事务模型和Greenplum基于两阶段提交的分布式事务。具体地，本文会首先介绍单机事务、ACID特性，以及PG中的事务实现；然后介绍一种分布式事务协议——两阶段提交协议，分析其实现、优点和局限性，并简单介绍以3PC为代表的两阶段提交协议优化。

Greenplum 6.0 版本介绍

Greenplum中文社区

04-09

951

...

修改Greenplum表存储和分布策略

neweastsun的专栏

02-05

2803

修改Greenplum表存储和分布策略修改表是DBA最频繁的操作之一。Greenplum利用多种存储机制实现大数据量存储和处理，包括数据分布、分区、堆表、AO表、压缩、外部表等。本文介绍如何在创建表之后修改表存储和分布策略。修改表命令改变表的定义，使用ALTER TABLE改变表的属性，如列定义、分布策略，存储模式、分区结构。如增加列的非空约束。示例：ALTER TABLE sachi ALTER COLUMN name SET NOT NULL; 1. 修改分布策略 ALTER TABLE 提供选项

如何检测、清理Greenplum垃圾 - 阿里云HybridDB for PG最佳实践

weixin_34161029的博客

08-20

513

标签 PostgreSQL , Greenplum , HDB for PG 背景 Greenplum通过多版本支持数据的删除和更新的并发和回滚，在删除数据时（使用DELETE删除），对记录的头部xmax值进行标记。在删除记录时，对记录的头部进行标记，同时插入新的版本。这一就会导致一个问题，如果用户经常删除和插入或更新数据，表和索引都会膨胀。 Po...

oracle 分布键,DWS使用技巧：根据ORACLE主键和唯一健批量修改DWS分布列字段的方法...

weixin_42526166的博客

04-03

1079

问题背景：在批量从ORACLE迁移到DWS的场景中，经常会结构迁移过程中，只迁移了表结构而没有根据ORACLE源库情况同时设置分布列字段的问题，这样会导致所有的表均自动使用第一个字段(可用作为分布列类型)作为默认分布列，但是很多时候使用默认第一个字段作为分布列会导致严重的数据倾斜，这个时候就需要批量修改分布列字段，但是DWS并不支持直接修改分布列字段，手工去修改每个表会非常麻烦。Hash分布表的分...

linux 一键修改分布式系统配置文件

笑笑的博客

02-22

333

0. 背景分布式部署程序的时候，近20台机器部署了同样的环境进行数据采集。当更换程序时，能否修改好一套，其他机器只需要一步scp，一步执行脚本。一键修改配置，正是本文的目的。 1. 实现要求 1、修改*.sh的可执行权限； 2、自动获取表名称的前两个字符，相应所有文件名称统一修改； 3、修改配置文件中的mysql表名、mysql地址； 4、从其他已有填好的配置中读取并修改java程序执行的...

pg库查看某模式下某表的分布键

wdyliuxingfeiyang的博客

04-22

2806

SELECT aaa.nspname AS "模式名", aaa.relname AS "表名", ccc.attname AS "分布键" FROM ( SELECT aa.oid, aa.relname, bb.pcattnum, dd.nspname FROM pg_class aa LEFT JOIN pgxc_class bb ON aa.oid = bb.pcrelid ...

GP数据库

weixin_43748802的博客

04-21

6434

GP数据库查看表空间：select * from pg_tablespace 查看表结构：select show_table(’schema.表名‘) 查看表大小：select pg_size_pretty(pg_relation_size(‘schema.表名’)) ...

实战 PostgreSQL 分区表：分区修改

PageThinker

03-09

2400

在实战 PostgreSQL 分区表中并没有涉及到如何修改分区表的问题。这篇内容将聚焦如何进行分区表的修改。我们使用上一篇实战 PostgreSQL 分区表中的 Order 数据的场景，关于如何初始化这部分数据，请参考实战 PostgreSQL 分区表。 00，场景 1，拆分分区 2，合并分区 01，拆分分区：操作流程 (1)，确认分区规则原来的分区情况如下：父表 order...

PostgreSQL 分区表性能优化-分区键

Oxye

02-18

3114

目录前言优化过程数据库版本总体思路分区键前言近期优化SQL的次数越来越多了，优化的思路可以从SQL结构、执行计划、统计信息、执行计划缓存、索引合理性（数据离散度、联合索引等）、程序的数据库连接池参数、数据库自身参数、数据库部署架构等方面看。这次优化涉及了PostgreSQL的分区表，和单表不同，分区表有一些特性，导致它和普通表有一些区别，例如数据库版本（影响分区表特性）、分区类型（Hash分区、range分区、List分区等）。本次优化的都是Hash分区的，亿级别的基础数据，根据Hash分区优化过

postgresql修改常用属性

xiaohuangrener的博客

04-15

1000

--数据库、模式、表名 "identities"."Test"."tab_test" --修改字段名 ALTER TABLE "identities"."Test"."tab_test" RENAME "u_name" to realname ; --添加字段 ALTER TABLE "identities"."Test"."tab_test" ADD COLUMN updcontent VARCHAR(50); --添加字段给默认值 ALTER TABLE "identit...

SQL中创建表同时分布列设置一个字段

最新发布

03-20

<think>好的，我现在要解决用户的问题：如何在SQL创建表时指定分布列字段。首先，我需要理解用户的需求。用户可能在使用分布式数据库，比如Greenplum、Amazon Redshift或者HashData，这些系统需要分布列来优化数据分布和查询性能。分布列的选择对性能影响很大，所以用户想知道正确的语法和最佳实践。接下来，我需要回忆相关的SQL语法。不同的数据库系统可能有不同的语法。例如，Greenplum使用DISTRIBUTED BY，而Redshift使用DISTSTYLE KEY和DISTKEY。我需要确认这些语法差异，并确保回答准确。然后，查看用户提供的引用内容。引用1提到计算列和优化策略下推，引用2和3是关于表结构的查询，引用4涉及数据加载。虽然这些引用没有直接讲分布列，但可以推测用户可能在处理大数据或分布式数据库，因此需要结合这些上下文给出建议。接下来，我需要构建回答结构。首先解释分布列的作用，然后分系统说明语法，比如Greenplum、Redshift、HashData，可能还要提到其他系统如TeraData。然后给出最佳实践，比如选择高基数列、经常用于JOIN或GROUP BY的列，避免数据倾斜。最后，注意事项如主键和分布列的关系，以及如何验证分布策略。同时，要确保使用正确的中文表达，行内公式用$...$，但这里可能不需要数学公式。注意生成相关问题，比如不同系统的语法差异、选择分布列的方法、修改分布列的方法，以及数据倾斜的处理。需要验证语法是否正确，比如Greenplum的DISTRIBUTED BY是否正确，是否支持哈希分布或随机分布。另外，注意用户可能混淆了分布列和分区，需要明确两者区别，但用户的问题明确是分布列，所以不需要涉及分区。最后，检查是否有遗漏，比如是否提到分布式数据库的类型，是否需要示例代码，用户提供的示例中有代码块，所以回答中应包含示例。例如，Greenplum的创建表语句，Redshift的DISTKEY语法等。总结，回答应包括： 1. 分布列的作用 2. 各系统的语法示例 3. 最佳实践 4. 注意事项 5. 相关问题确保引用正确的来源，但用户提供的引用中没有直接相关的内容，所以可能不需要添加引用标识，除非有相关内容。例如，引用1提到优化策略下推，可能和分布列的优化有关，可以提及。最后，生成相关问题时要围绕分布列的选择、语法差异、性能优化等，帮助用户进一步了解。</think>在分布式数据库系统中（如Greenplum、HashData等），创建表时指定分布列字段的语法如下： ### 一、基本语法（以Greenplum/PostgreSQL为例） ```sql CREATE TABLE table_name ( column1 datatype, column2 datatype, ... ) DISTRIBUTED BY (column_name); ``` ### 二、关键参数说明 1. `DISTRIBUTED BY`：定义分布列 2. `DISTRIBUTED RANDOMLY`：随机分布（适用于无明确关联键的场景） 3. `DISTRIBUTED REPLICATED`：全分布复制（适用于小表） ### 三、不同系统的实现差异 1. **Amazon Redshift**： ```sql CREATE TABLE table_name ( column1 datatype, column2 datatype ) DISTSTYLE KEY DISTKEY (column_name); ``` 2. **HashData**： ```sql CREATE TABLE table_name ( column1 int, column2 text ) DISTRIBUTED BY (column1); ``` ### 四、最佳实践 1. 选择高基数列作为分布列（如主键、唯一键） 2. 优先选择JOIN操作中使用的关联字段 3. 避免选择数据分布倾斜的列 4. 对于事实表/维度表关联，建议使用相同分布列[^1] ### 五、注意事项 1. 分布列一旦指定，修改需要重建表 2. 主键必须包含分布列（在Greenplum中） 3. 可通过`EXPLAIN`命令验证数据分布策略[^3] ```sql -- 示例：创建带有分布列的用户表 CREATE TABLE users ( user_id int PRIMARY KEY, name varchar(50), reg_date date ) DISTRIBUTED BY (user_id); ```