StarRocks数据导入导出功能全面解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00462/article/details/148416614

StarRocks数据导入导出功能全面解析

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

作为一款高性能分析型数据库，StarRocks提供了丰富的数据导入导出功能，本文将全面解析其支持的各种数据加载和卸载方式、文件格式、压缩格式以及相关参数配置。

一、文件格式支持概览

1.1 数据导入支持的文件格式

StarRocks支持多种数据导入方式，每种方式支持的文件格式有所不同：

| 导入方式 | 数据源 | CSV | JSON | Parquet | ORC | Avro | ProtoBuf | Thrift | |-------------------|---------------------------|-----|------|---------|-----|------|----------|--------| | Stream Load | 本地文件系统/应用程序/连接器 | ✓ | ✓ | 计划支持 | 计划支持 | 计划支持 | 计划支持 | 计划支持 | | INSERT from FILES | HDFS/S3/OSS等云存储 | ✓(v3.3+) | 计划支持 | ✓(v3.1+) | ✓(v3.1+) | 计划支持 | 计划支持 | 计划支持 | | Broker Load | HDFS/S3/OSS等云存储 | ✓ | ✓(v3.2.3+) | ✓ | ✓ | 计划支持 | 计划支持 | 计划支持 | | Routine Load | Kafka | ✓ | ✓ | 计划支持 | 计划支持 | ✓(v3.0+) | 计划支持 | 计划支持 | | Spark Load | - | ✓ | 计划支持 | ✓ | ✓ | 计划支持 | 计划支持 | 计划支持 |

关键说明：

JSON格式支持多种CDC(变更数据捕获)格式，包括Debezium、Canal和Maxwell
使用Kafka Connector导入Debezium格式数据到主键表时需配置transforms参数
PIPE功能目前仅支持INSERT from FILES方式

1.2 数据导出支持的文件格式

| 导出方式 | 目标格式 | 存储位置 | CSV | JSON | Parquet | ORC | |--------------------|----------|----------|-----|------|---------|-----| | INSERT INTO FILES | - | HDFS/S3等 | ✓(v3.3+) | 计划支持 | ✓(v3.2+) | ✓(v3.3+) | | INSERT INTO Catalog| Hive | HDFS/S3等 | ✓(v3.3+) | 计划支持 | ✓(v3.2+) | ✓(v3.3+) | | INSERT INTO Catalog| Iceberg | HDFS/S3等 | 计划支持 | 计划支持 | ✓(v3.2+) | 计划支持 | | EXPORT | - | HDFS/S3等 | ✓ | 计划支持 | 计划支持 | 计划支持 |

二、文件格式相关参数详解

2.1 导入参数配置

CSV格式参数：

column_separator：列分隔符(所有导入方式支持)
row_delimiter：行分隔符(Stream Load/Broker Load/Routine Load支持)
enclose/escape：字段包围和转义字符(v3.0+支持)
skip_header：跳过文件头
trim_space：去除空格(v3.0+支持)

JSON格式参数：

jsonpaths：指定JSON路径
strip_outer_array：去除外层数组
json_root：指定JSON根节点
ignore_json_size：忽略JSON大小限制

2.2 导出参数配置

CSV格式参数：

column_separator：列分隔符
line_delimiter：行分隔符(对应导入时的row_delimiter)

三、压缩格式支持情况

3.1 导入压缩支持

| 文件格式 | 压缩算法 | Stream Load | Broker Load | INSERT from FILES | |----------|------------------------------|-------------|-------------|-------------------| | CSV/JSON | gzip/zstd/lz4等 | ✓ | ✓(通过扩展名识别) | 计划支持 | | Parquet/ORC | snappy/gzip/zstd等 | - | ✓ | ✓ |

注意事项：

Stream Load导入CSV时需使用format=gzip指定压缩格式
Broker Load通过文件扩展名(.gz/.zst等)自动识别压缩格式

3.2 导出压缩支持

| 文件格式 | 压缩算法 | INSERT INTO FILES | EXPORT | |----------|------------------------|-------------------|--------| | Parquet/ORC | snappy/gzip/zstd等 | ✓(v3.2+) | - |

四、认证机制支持

4.1 导入认证

| 认证方式 | Stream Load | INSERT from FILES | Broker Load | Routine Load | |------------------------|-------------|-------------------|-------------|--------------| | Kerberos | - | ✓(v3.1+) | ✓ | ✓(v3.1.4+) | | 基本认证(access key等) | - | ✓ | ✓ | ✓ |