
作者介绍
ceciliasu(苏翠翠),腾讯云数据库工程师,加入腾讯以来持续从事分布式数据库内核研发工作,曾负责TDSQL PG版、CDW PG快速扩容能力设计和研发。目前主要参与CDW PG数据库内核研发相关工作,负责外部数据快速导入工具的设计和研发。
原生数据导入导出方式以及存在的问题
使用原生COPY导入数据相当耗时,这是因为在CN上执行COPY导入数据是一个串行执行的过程,所有数据都需要经过CN处理分发给不同DN入库,所以CN是瓶颈,它只适合小数据量的导入。

图表 1 COPY数据流向示意图
TDX提出了一种基于外表实现多DN并行导入数据的方式,将数据的处理和写入直接下推到DN执行,使DN直连数据源,充分利用分布式数据库的多节点优势,最大化数据库的计算能力。

图表 2 TDX数据流向示意图
从零开始 - TDX使用实践
并行文件分发组件TDX服务部署
支持CDW PG并行导入导出的第一步便是在数据服务器上部署CDW PG并行文件分发组件-TDX服务。数据服务器是指数据源文件所在的机器,数据服务器上是否分布有数据库结点无要求。
联系CDW PG团队人员获取TDX服务rpm包;
CDW PG_tdx-1.0-i.x86_64.rpm
基础依赖安装:
yum install apr-devel.x86_64
yum install libevent-devel.x86_64
软件

本文介绍了腾讯云数据库工程师苏翠翠关于CDWPG数据库并行导入导出的优化方案,主要涉及TDX服务的部署和使用。TDX通过在外表实现多DN并行导入,提升数据处理效率,避免了原生COPY方式的串行瓶颈。文章详细阐述了TDX服务的安装、配置、启动,以及外部表的创建和数据的导入导出过程,展示了数据导入的执行计划,强调了DN的并行处理能力。
最低0.47元/天 解锁文章
1773

被折叠的 条评论
为什么被折叠?



