StarRocks数据导出指南：使用INSERT INTO FILES实现高效卸载-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00799/article/details/148416618

StarRocks数据导出指南：使用INSERT INTO FILES实现高效卸载

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

在数据仓库和大数据分析场景中，数据导出(Unloading)是一个常见且重要的操作。StarRocks作为一款高性能的分析型数据库，提供了多种数据导出方式。本文将重点介绍如何使用INSERT INTO FILES语句将StarRocks中的数据高效地卸载到远程存储系统中。

技术背景

传统的数据导出方式往往需要复杂的ETL流程或专门的导出工具。StarRocks通过引入FILES()表函数与INSERT语句的结合，提供了一种更简洁、统一的数据导出方案。这种方法具有以下优势：

语法简洁：与数据加载(Loading)使用相似的语法，降低学习成本
灵活输出：支持单文件或多文件导出，并可实现自动分区存储
格式丰富：支持Parquet、CSV等多种文件格式
压缩选项：提供多种压缩算法选择，优化存储空间

准备工作

在开始数据导出前，我们需要准备以下环境：

创建示例数据库和表：

CREATE DATABASE unload;
USE unload;
CREATE TABLE sales_records(
    record_id     BIGINT,
    seller        STRING,
    store_id      INT,
    sales_time    DATETIME,
    sales_amt     DOUBLE
)
DUPLICATE KEY(record_id)
PARTITION BY date_trunc('day', sales_time)
DISTRIBUTED BY HASH(record_id);

INSERT INTO sales_records VALUES
    (220313001,"Amy",1,"2022-03-13 12:00:00",8573.25),
    (220314002,"Bob",2,"2022-03-14 12:00:00",6948.99),
    (220314003,"Amy",1,"2022-03-14 12:00:00",4319.01),
    (220315004,"Carl",3,"2022-03-15 12:00:00",8734.26),
    (220316005,"Carl",3,"2022-03-16 12:00:00",4212.69),
    (220317006,"Bob",2,"2022-03-17 12:00:00",9515.88);

确保拥有远程存储系统的写入权限，如：
- 配置了简单认证的HDFS集群
- 使用IAM用户凭证的AWS S3存储桶

数据导出实践

基础导出：多文件模式

默认情况下，INSERT INTO FILES会将数据拆分为多个文件导出，每个文件大小约为1GB。我们可以通过target_max_file_size参数调整文件大小。

S3导出示例：

INSERT INTO 
FILES(
    "path" = "s3://mybucket/unload/data1",
    "format" = "parquet",
    "compression" = "uncompressed",
    "target_max_file_size" = "1048576", -- 1MB
    "aws.s3.access_key" = "your_access_key",
    "aws.s3.secret_key" = "your_secret_key",
    "aws.s3.region" = "us-west-2"
)
SELECT * FROM sales_records;

HDFS导出示例：

INSERT INTO 
FILES(
    "path" = "hdfs://namenode:9000/unload/data1",
    "format" = "parquet",
    "compression" = "uncompressed",
    "target_max_file_size" = "1048576", -- 1MB
    "hadoop.security.authentication" = "simple",
    "username" = "hdfs_user",
    "password" = "hdfs_password"
)
SELECT * FROM sales_records;

生产建议：在实际生产环境中，建议将target_max_file_size设置为数百MB到数GB之间，以获得最佳性能。

高级特性：分区导出

通过partition_by参数，我们可以按照指定列的值自动将数据分区存储到不同目录：

S3分区导出：

INSERT INTO 
FILES(
    "path" = "s3://mybucket/unload/partitioned/",
    "format" = "parquet",
    "compression" = "lz4",
    "partition_by" = "sales_time",
    "aws.s3.access_key" = "your_access_key",
    "aws.s3.secret_key" = "your_secret_key",
    "aws.s3.region" = "us-west-2"
)
SELECT * FROM sales_records;

这种分区导出方式特别适合后续需要按时间范围查询的场景，能够显著提高查询效率。

单文件导出模式

对于小规模数据集或需要单一文件的场景，可以设置single参数为true：

单文件导出示例：

INSERT INTO 
FILES(
    "path" = "s3://mybucket/unload/single_file",
    "format" = "parquet",
    "compression" = "lz4",
    "single" = "true",
    "aws.s3.access_key" = "your_access_key",
    "aws.s3.secret_key" = "your_secret_key",
    "aws.s3.region" = "us-west-2"
)
SELECT * FROM sales_records;

特殊存储系统支持

MinIO导出配置

MinIO作为S3兼容的存储系统，需要特殊配置：

INSERT INTO 
FILES(
    "path" = "s3://bucket/unload/minio_data",
    "format" = "parquet",
    "compression" = "zstd",
    "aws.s3.access_key" = "minio_access_key",
    "aws.s3.secret_key" = "minio_secret_key",
    "aws.s3.endpoint" = "http://minio:9000",
    "aws.s3.enable_path_style_access" = "true"
)
SELECT * FROM sales_records;

通过NFS导出到本地

虽然StarRocks不支持直接导出到本地文件系统，但可以通过NFS实现：

-- CSV格式导出
INSERT INTO FILES(
  'path' = 'file:///nfs_mount/csv_export/', 
  'format' = 'csv', 
  'csv.column_separator' = ','
)
SELECT * FROM sales_records;

-- Parquet格式导出
INSERT INTO FILES(
  'path' = 'file:///nfs_mount/parquet_export/',
   'format' = 'parquet'
)
SELECT * FROM sales_records;

性能优化建议

压缩选择：根据数据特性选择合适的压缩算法
- uncompressed：不压缩，导出速度最快
- snappy：平衡压缩比和速度
- zstd：高压缩比，适合存储优化
文件大小：根据后续使用场景调整
- 频繁小范围查询：较小的文件(100-500MB)
- 全表扫描：较大的文件(1GB以上)
并行度：导出性能与集群计算资源相关，适当增加资源可提高导出速度