数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工。
Hudi(Hadoop Upserts Deletes and Incrementals)
定位 -面向数据湖的增量写入、更新与删除技术。Hudi通过表格式管理的能力,为数据湖提供ACID事务、时间旅行查询等特性。
场景 -近实时抽数(大规模数据更新和删除的场景,增量管道,数据分发);近实时分析(实现数据的实时更新和查询)
Doris基于MPP(Massively Parallel Processing)
定位 -实时分析型数据库。性能特点:低延迟数据处理和查询;支持高并发数据查询;实时数据导入和查询。
场景 -实时数据分析;快速响应的交互式查询。
Hudi VS Doris
Doris 主要sql方式使用,无法解决复杂逻辑问题。
hudi,大量并发查询消耗资源大。