StarRocks Spark Load 大数据批量导入技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00235/article/details/148416683

StarRocks Spark Load 大数据批量导入技术详解

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

Spark Load 是 StarRocks 提供的一种高效的大数据批量导入方式，它利用外部 Spark 集群资源对导入数据进行预处理，特别适合 TB 级别的大数据量导入场景。本文将深入解析 Spark Load 的技术原理、配置方法和最佳实践。

技术原理

Spark Load 的核心思想是将数据预处理工作从 StarRocks 集群中分离出来，交由 Spark 集群执行，从而减轻 StarRocks 集群的计算压力。其工作流程分为以下几个关键阶段：

任务提交：用户通过 MySQL 客户端提交 Spark Load 任务，FE（Frontend）记录元数据
ETL 处理：FE 调度 Spark 集群执行 ETL 任务，完成数据预处理（包括全局字典构建、分区、排序、聚合等）
数据落盘：预处理后的数据存储在 HDFS 上
数据加载：BE（Backend）节点从 HDFS 读取数据并转换为 StarRocks 存储格式
版本生效：FE 调度新版本数据生效，完成导入

环境配置

1. 资源配置

Spark Load 需要先创建外部资源：

CREATE EXTERNAL RESOURCE "spark_resource"
PROPERTIES
(
    "type" = "spark",
    "spark.master" = "yarn",
    "spark.submit.deployMode" = "cluster",
    "spark.hadoop.fs.defaultFS" = "hdfs://namenode_host:9000",
    "working_dir" = "hdfs://namenode_host:9000/tmp/starrocks"
);

关键参数说明：

spark.master：必须设置为 yarn
working_dir：ETL 作业生成文件的存储路径
根据集群配置，可能需要添加 YARN ResourceManager 相关参数

2. 客户端配置

Spark 客户端配置：

设置 SPARK_HOME 环境变量指向 Spark 安装目录
将 Spark 的 jars 目录打包为 zip 文件（默认命名为 spark-2x.zip）

YARN 客户端配置：

配置 yarn 可执行文件路径
可选配置 YARN 配置文件生成路径

导入任务管理

创建导入任务

基本语法示例：

LOAD LABEL db_name.label_name
(
    DATA INFILE("hdfs_path")
    INTO TABLE target_table
    COLUMNS TERMINATED BY ","
    (col1, col2)
    SET(id=col2, name=col1)
)
WITH RESOURCE 'spark_resource'
PROPERTIES("timeout" = "3600");

支持的数据源类型：

HDFS 文件（CSV/ORC/PARQUET）
Hive 表（需先创建外部表）

任务监控

查看导入状态：

SHOW LOAD WHERE LABEL = "label_name";

返回结果包含任务状态、进度、错误信息等关键指标。

任务取消

CANCEL LOAD FROM db_name WHERE LABEL = "label_name";

高级特性

全局字典构建

当目标表有 BITMAP 类型聚合列时，可以通过全局字典将原始值映射为整型：

LOAD LABEL db_name.label_name
(
    DATA FROM TABLE hive_external_table
    INTO TABLE starrocks_table
    SET(uuid=bitmap_dict(uuid))
)
WITH RESOURCE 'spark_resource';

二进制数据处理

从 2.5.17 版本开始支持将 binary 类型转为 bitmap：

SET(bitmap_col=bitmap_from_binary(binary_col))

性能优化建议

资源分配：根据数据量合理设置 Spark 执行器内存

WITH RESOURCE 'spark_resource'("spark.executor.memory" = "4g")

压缩配置：启用 shuffle 压缩减少网络传输
```
"spark.shuffle.compress" = "true"
```
分区策略：根据数据特征选择合适的分区方式

常见问题排查

环境变量问题：
- 确保配置了 HADOOP_CONF_DIR 或 YARN_CONF_DIR
- 检查 spark_home_default_dir 配置是否正确
依赖问题：
- 确认 spark-resource-path 指向正确的 zip 文件
- 检查 yarn-client-path 配置
权限问题：
- 确保有目标表的 INSERT 权限
- 检查 HDFS 访问权限