打造次世代分析型数据库(八):高效数据导入导出方案

本文介绍了腾讯云数据库工程师苏翠翠关于CDWPG数据库并行导入导出的优化方案,主要涉及TDX服务的部署和使用。TDX通过在外表实现多DN并行导入,提升数据处理效率,避免了原生COPY方式的串行瓶颈。文章详细阐述了TDX服务的安装、配置、启动,以及外部表的创建和数据的导入导出过程,展示了数据导入的执行计划,强调了DN的并行处理能力。

bc849bf98af987bfb03f8a558bb5a4d6.gif

作者介绍

ceciliasu(苏翠翠),腾讯云数据库工程师,加入腾讯以来持续从事分布式数据库内核研发工作,曾负责TDSQL PG版、CDW PG快速扩容能力设计和研发。目前主要参与CDW PG数据库内核研发相关工作,负责外部数据快速导入工具的设计和研发。

原生数据导入导出方式以及存在的问题

使用原生COPY导入数据相当耗时,这是因为在CN上执行COPY导入数据是一个串行执行的过程,所有数据都需要经过CN处理分发给不同DN入库,所以CN是瓶颈,它只适合小数据量的导入。

1d39fda1fb5ee858c02519c18450d430.png

图表 1 COPY数据流向示意图

TDX提出了一种基于外表实现多DN并行导入数据的方式,将数据的处理和写入直接下推到DN执行,使DN直连数据源,充分利用分布式数据库的多节点优势,最大化数据库的计算能力。

a6d1cef718f5b61f567a245befad31f6.png

图表 2 TDX数据流向示意图

从零开始 - TDX使用实践

并行文件分发组件TDX服务部署

支持CDW PG并行导入导出的第一步便是在数据服务器上部署CDW PG并行文件分发组件-TDX服务。数据服务器是指数据源文件所在的机器,数据服务器上是否分布有数据库结点无要求。

联系CDW PG团队人员获取TDX服务rpm包;

CDW PG_tdx-1.0-i.x86_64.rpm

基础依赖安装:

yum install apr-devel.x86_64  
yum install libevent-devel.x86_64

‍软件

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值