GaussDB(DWS)介绍

华为云GaussDB(DWS)：云端数据仓库详解与应用

最新推荐文章于 2025-09-08 14:03:48 发布

原创最新推荐文章于 2025-09-08 14:03:48 发布 · 3w 阅读

149 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #数据仓库 #database

DB 同时被 2 个专栏收录

21 篇文章

订阅专栏

GaussDB

5 篇文章

订阅专栏

本文介绍了华为云的GaussDB(DWS)——一种云端数据仓库服务，它基于MPP架构，提供PB级数据处理和分析能力。文章详细阐述了DWS的架构、数据查询流程、应用案例及网络组网方案，突出了其在数据仓库迁移、大数据融合分析等方面的优势。

数据仓库服务（Data Warehouse Service，GaussDB（DWS））是一种基于公有云基础架构和平台的在线数据处理数据库，提供即开即用、可扩展且完全托管的分析型数据库服务。

1. 简介

GaussDB（DWS）是基于华为融合数据仓库GaussDB产品的云原生服务，兼容标准ANSI SQL 99和SQL 2003，同时兼容PsotgreSQL/Oracle数据库生态，为各行各业提供PB级大数据分析解决方案。
在这里插入图片描述

其中：

● DWS：基于MPP架构的数据库，提供PB级数据负载能力、百TB级数据支撑能力、海量数据查询统计分析能力与事务处理能力、支持结构化数据PB级分析能力等
● Manager：作为运维系统，负责GaussDB(DWS)的集群管理，支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等。

DWS具有如下的优势：
在这里插入图片描述

2. 架构

DWS的产品架构如下所示：

DWS本身基于分布式架构，组件支持主备/多活高可靠性设计；存算分离，按需独立扩展；支持事务的ACID，支持数据的强一致性保证。另外，底层支持x86和arm两种架构的服务器，部署类型支持虚拟机和裸金属服务器两种。基于鲲鹏芯片的垂直优化相比同代的x86性能提升30%。

逻辑上的架构如下图所示：

其中：

● 集群管理模块（Cluster Manager，CM）:管理和监控分布式系统中各个功能单元和物理资源的运行情况，确保整个系统的稳定运行；
● 全局事务控制器（Global Transaction Manager，GTM）：提供全局事务控制所需的信息，采用多版本并发控制MVCC机制
● 工作负载管理器（Worked Manager，WLM）：控制系统资源的分配，防止过量业务负载对系统的冲击导致业务拥塞和系统崩溃
● Corrdinator：整个系统的业务入口和结果返回，用于接收来自业务应用的访问请求，分解任务并调度任务分片的并行执行
● Data Node：用于执行查询任务分片的逻辑实体
● GDS Loader：并行数据加载，可配置多个，支持文本文件格式，错误数据自动识别

DN节点为保证高可用，具有主、备、从备三类DN，高可用的实现方式为：

● 主、备DN同步数据期间，如果主DN突然故障不可用，备DN会升为主DN
● 在原主DN恢复前，新升为主的DN会将数据日志同步到从备DN
●原主DN恢复后将成为备DN，并且会使用“从备DN”上的数据日志恢复异常期间的数据。

从备DN永远只作为从备使用，不会因为主DN或备DN故障而升级为主DN或备DN，从备只存放备DN故障时同步到从备的Xlog数据和数据通道复制产生的数据。

3. 数据查询流程

数据查询的流程示意图如下所示：

具体查询流程如下：

用户通过应用程序发出查询本地数据的SQL请求到Coordinator
Coordinator接收用户的SQL请求，分配服务进程，向GTM请求分配全局事务信息
GTM接收到Coordinator的请求，返回全局事务信息给Coordinator
Coordinator根据数据分布信息以及系统元信息，解析SQL为查询计划树，从查询计划树中提取可以发送到Datanode的执行步骤，封装成SQL语句或者子执行计划树，发送到Datanode执行
Datanode接收到读取任务后，查询具体Storage上的本地数据块
Datanode任务执行后，将执行结果返回给Coordinator
Coordinator将查询结果通过应用程序返回给用户

4. 应用

DWS的已有应用场景如下：

● 数据仓库迁移

● 大数据融合分析

● 增强型ETL和实时BI分析

● 实时数据分析

● 银行大数据分析平台

5. 组网方案

GaussDB(DWS)整个系统网络划分为2个平面，即业务平面和管理平面，两个平面之间采用物理隔离的方式进行部署，保证业务、管理各自网络的安全性。

管理平面通过运维网络接入，提供系统管理和维护功能，主要用于集群的管理，对外提供集群监控、配置、审计、用户管理等服务。业务平面，主要用于集群内部数据处理的专用网络平面，此处的业务平面非客户的应用网络平面。

关于不同场景下组网方案原则如下：

6. 集群组网方案

GaussDB(DWS)系统的网络划分为2个平面，即业务平面和管理平面，两个平面之间采用物理隔离的方式进行部署，保证业务、管理各自网络的安全性。主备管理节点还支持设置外部管理网络的IP地址，用户可以通过外部管理网络进行集群管理。

采用双平面组网时，集群中每个节点分别接入管理平面和业务平面，每个节点需要准备一个管理IP地址和一个业务IP地址，每个IP地址用两个网络接口配置Bond，分别接入两个接入交换机。各节点的业务平面建议采用10GE带宽，业务平面接入交换机与汇聚交换机之间建议采用10GE带宽，业务平面汇聚交换机的堆叠带宽建议设置为40GE。