1、数据导入

2、数据迁移
1、Hive/Iceberg/Hudi等,可以使用Multi-Catalog来映射为外表,然后使用Insert Into,来将数据导入
2、可以从原来AP系统中到处数据为CSV等数据格式,然后再将导出的数据导入到Doris
3、可以使用 Spark / Flink 系统,利用AP系统的Connector来读取数据,然后调用Doris Connector写入Doris
4、SelectDB提供了免费的可视化的数据迁移工具X2Doris,目前支持了Apache Doris/Hive/Kudu、StarRocks数据库往Doris迁移的工作。
3、高并发小写入(Group Commit)
Group Commit不是一种新的导入方式,而是对INSERT INTO tbl VALUES(…)、Stream Load、Http Stream的扩展,大幅提升了高并发小写入的性能!
Group Commit 写入有三种模式,分别是:
关闭模式(off_mode)
不开启 Group Commit,保持以上三种导入方式的默认行为。
同步模式(sync_mode)
Doris根据负载和表的group_commit_interval属性将多个导入在一个事务提交,事务提交后导入返回。
这适用于高并发写入场景,且在导入完成后要求数据立即可见。
异步模式(async_mode)
Doris首先将数据写入WAL (Write Ahead Log),然后导入立即返回。
Doris会根据负载和表的group_commit_interval属性异步提交数据,提交之后数据可见。
为了防止WAL占用较大的磁盘空间,单次导入数据量较大时,会自动切换为sync_mode。
这适用于写入延迟敏感以及高频写入的场景。
4、数据导入事务与原子性保障
基本原理:
Doris导入任务中,

最低0.47元/天 解锁文章
487

被折叠的 条评论
为什么被折叠?



