GBase 8a MPP Cluster 中,集群加载功能直接集成在 GBase 8a MPP Cluster 内部,提供了面向用户的 SQL 接口,集群和单机加载方式统一,支持如下功能:
支持从通用数据服务器拉取数据,支持 ftp/http/hdfs/sftp 等多种协议;
支持多加载机对单表的并行加载,最大化加载性能;
支持普通文本、gzip 压缩、snappy 压缩、lzo 压缩等多种格式数据文件;
支持普通文本与定长文本的加载(format 3 和 format 4)
支持错误数据溯源功能,可以准确定位错误数据在源文件中的位置;
加载性能可以随着集群规模的扩展而持续提升
加载的时候只写主分片,副本分片系统内部自动同步,性能大幅提升,可达30TB+/小时,同时加载方式简单,通过直接调用sql语句加载。流程如下图:

本文介绍GBase8a MPPCluster中的集群加载功能,包括多节点并行加载、多种数据源支持、压缩格式、错误定位以及性能优化,通过SQL接口实现简单加载,每小时可达30TB+的数据处理能力。
972

被折叠的 条评论
为什么被折叠?



