Doris数据操作分类详解

最新推荐文章于 2025-10-03 01:44:34 发布

原创

最新推荐文章于 2025-10-03 01:44:34 发布 · 1.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #运维

1、数据导入
在这里插入图片描述
2、数据迁移
1、Hive/Iceberg/Hudi等，可以使用Multi-Catalog来映射为外表，然后使用Insert Into，来将数据导入
2、可以从原来AP系统中到处数据为CSV等数据格式，然后再将导出的数据导入到Doris
3、可以使用 Spark / Flink 系统，利用AP系统的Connector来读取数据，然后调用Doris Connector写入Doris
4、SelectDB提供了免费的可视化的数据迁移工具X2Doris，目前支持了Apache Doris/Hive/Kudu、StarRocks数据库往Doris迁移的工作。

3、高并发小写入（Group Commit）
Group Commit不是一种新的导入方式，而是对INSERT INTO tbl VALUES(…)、Stream Load、Http Stream的扩展，大幅提升了高并发小写入的性能！
Group Commit 写入有三种模式，分别是：
关闭模式（off_mode）
不开启 Group Commit，保持以上三种导入方式的默认行为。

同步模式（sync_mode）
Doris根据负载和表的group_commit_interval属性将多个导入在一个事务提交，事务提交后导入返回。
这适用于高并发写入场景，且在导入完成后要求数据立即可见。

异步模式（async_mode）
Doris首先将数据写入WAL (Write Ahead Log)，然后导入立即返回。
Doris会根据负载和表的group_commit_interval属性异步提交数据，提交之后数据可见。
为了防止WAL占用较大的磁盘空间，单次导入数据量较大时，会自动切换为sync_mode。
这适用于写入延迟敏感以及高频写入的场景。

4、数据导入事务与原子性保障
基本原理：
Doris导入任务中，