StarRocks项目中的Routine Load数据加载详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00404/article/details/148416573

StarRocks项目中的Routine Load数据加载详解

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

在实时数据处理场景中，如何高效地将Kafka中的流式数据导入到分析型数据库是一个常见需求。StarRocks提供的Routine Load功能正是为解决这一问题而设计。本文将详细介绍如何使用Routine Load功能将Kafka中的消息持续导入到StarRocks数据库中。

Routine Load核心概念

基本架构

Routine Load功能由以下几个核心组件构成：

加载作业(Load Job)：长期运行的作业，负责持续生成加载任务
加载任务(Load Task)：实际执行数据加载的基本单元，基于Stream Load机制实现
协调节点(Coordinator BE)：负责启动加载任务、消费消息并分发数据
执行节点(Executor BE)：负责将数据写入磁盘

工作流程

用户创建Routine Load作业
FE将作业拆分为多个并发加载任务
加载任务从Kafka分区消费消息并加载到StarRocks
FE持续生成新任务保证数据连续加载

关键特性

精确一次语义(Exactly-once)：确保数据不丢失也不重复
支持多种数据格式：包括CSV、JSON和Avro(3.0.1版本起)
数据转换能力：支持在加载过程中进行数据转换
UPSERT/DELETE支持：支持主键表的更新和删除操作

数据格式支持

CSV格式

CSV是结构化数据的常见格式，使用时需注意：

分隔符可以是UTF-8字符串(如逗号、制表符等)，长度不超过50字节
空值必须用\N表示，不能直接留空

JSON格式

JSON格式灵活，适合半结构化数据：

每个JSON对象必须独占一条Kafka消息
支持通过jsonpaths提取特定字段
支持字段级别的数据转换

Avro格式

从3.0.1版本开始支持，适合大数据场景下的二进制数据交换。

实战示例

CSV数据加载示例

数据准备

假设Kafka主题ordertest1包含以下CSV格式数据：

2020050802,2020-05-08,Johann Georg Faust,Deutschland,male,895
2020050802,2020-05-08,Julien Sorel,France,male,893

创建目标表

CREATE TABLE example_db.example_tbl1 (
    `order_id` bigint NOT NULL,
    `pay_dt` date NOT NULL,
    `customer_name` varchar(26) NULL,
    `nationality` varchar(26) NULL,
    `price` double NULL
) 
ENGINE=OLAP 
DUPLICATE KEY (order_id,pay_dt);

创建Routine Load作业

CREATE ROUTINE LOAD example_db.example_tbl1_ordertest1 ON example_tbl1
COLUMNS TERMINATED BY ",",
COLUMNS (order_id, pay_dt, customer_name, nationality, temp_gender, price)
PROPERTIES
(
    "desired_concurrent_number" = "5"
)
FROM KAFKA
(
    "kafka_broker_list" = "broker1:9092,broker2:9092",
    "kafka_topic" = "ordertest1",
    "kafka_partitions" = "0,1,2,3,4",
    "property.kafka_default_offsets" = "OFFSET_BEGINNING"
);

关键参数说明：

COLUMNS TERMINATED BY：指定CSV列分隔符
temp_gender：作为占位字段，实际不导入目标表
desired_concurrent_number：期望并发任务数

JSON数据加载示例

数据准备

假设Kafka主题ordertest2包含以下JSON数据：

{"commodity_id": "1", "customer_name": "Mark Twain", "country": "US","pay_time": 1589191487,"price": 875}

创建目标表

CREATE TABLE `example_tbl2` (
    `commodity_id` varchar(26) NULL,
    `customer_name` varchar(26) NULL,
    `country` varchar(26) NULL,
    `pay_time` bigint(20) NULL,
    `pay_dt` date NULL,
    `price` double SUM NULL
) 
ENGINE=OLAP
AGGREGATE KEY(`commodity_id`,`customer_name`,`country`,`pay_time`,`pay_dt`);

创建Routine Load作业

CREATE ROUTINE LOAD example_db.example_tbl2_ordertest2 ON example_tbl2
COLUMNS(commodity_id, customer_name, country, pay_time, price, pay_dt=from_unixtime(pay_time, '%Y%m%d'))
PROPERTIES
(
    "desired_concurrent_number" = "5",
    "format" = "json",
    "jsonpaths" = "[\"$.commodity_id\",\"$.customer_name\",\"$.country\",\"$.pay_time\",\"$.price\"]"
)
FROM KAFKA
(
    "kafka_broker_list" ="broker1:9092,broker2:9092",
    "kafka_topic" = "ordertest2",
    "kafka_partitions" ="0,1,2,3,4",
    "property.kafka_default_offsets" = "OFFSET_BEGINNING"
);

关键特性：

使用jsonpaths提取JSON中的特定字段
使用from_unixtime函数将时间戳转换为日期格式
明确指定数据格式为JSON

性能优化建议

并发度调整：
- 根据Kafka分区数量和BE节点数量合理设置desired_concurrent_number
- 可通过FE配置max_routine_load_task_concurrent_num调整最大并发数
批量参数调优：
- max_batch_interval：控制任务调度间隔
- max_routine_load_batch_size：控制单次加载数据量
资源隔离：
- 对重要业务线配置独立的资源组，避免相互影响