Stream Load与Broker Load简介
StarRocks的导入(Load)功能就是将用户的原始数据导入到 StarRocks表中。StarRocks底层实现了统一的流式导入框架,而在这个框架之上,StarRocks提供了非常丰富的导入方式以适应不同的数据源和数据导入需求。Stream Load和Broker Load是其中经常使用的两种。
Stream Load是一种同步执行的导入方式。用户通过HTTP协议发送请求将本地文件或者数据流中的数据导入到StarRocks中,并等待系统返回导入的结果状态,从而判断导入是否成功。

Broker Load通过Broker进程访问并读取外部数据源,采用MySQL协议向StarRocks创建导入作业。提交的作业将异步执行,用户可以通过SHOW LOAD命令查看导入结果。

Stream Load or Broker Load
Broker load 在底层数据处理上跟 Stream Load 一样,只是调度上有些不同。 Stream Load是同步导入方式,用户通过Http访问的方式将CSV格式或JSON格式的数据批量地导入StarRocks,并返回数据导入的结果。这种方式会把数据缓存到内存中。Broker Load是异步方式导入,除CSV/Json外,还支持Parquet/ORC,Broker load顺序读取文件,不需要一下子把数据全部缓存在内存中。对于CSV文件Broker可以自动对文件进行切分,对于ORC/Parquet文件则一个文件由一个Broker进行读取。
Stream Load

本文介绍了StarRocks的两种数据导入方式:Stream Load和Broker Load。Stream Load是同步的,适合小到中型数据量导入,而Broker Load是异步的,适用于大规模数据导入。两者在内存管理和数据处理上有区别,优化策略包括文件切分和并行度调整。
最低0.47元/天 解锁文章
2857

被折叠的 条评论
为什么被折叠?



