老板说要降本又增效,我把Paimon搬进了Doris家,然后...
深夜的数据中心里,小王团队正在紧盯着监控大屏,一串串数字疯狂跳动。
双11临近,业务部门的需求像潮水般涌来:既要上亿级TPS的实时写入,还要毫秒级的查询响应…这些看似不可能完成的任务,压得团队几乎喘不过气。
在团队一筹莫展之际,一个意外的发现改变了一切。当Apache Doris遇上Apache Paimon,这对黄金搭档演绎出了一段数据湖仓的"速度与激情"…
Doris与Paimon演绎湖仓新故事
午后,我正在数据中台研发小组例会上发言。
“大家看下这张监控大屏,11.11活动期间的流量洪峰正在不断涌入,业务部门急需实时数据支撑。他们既要上亿TPS的实时写入能力,又要秒级查询响应……”
办公室里陷入一阵沉默。单拎传统数仓和数据湖的方案都难以完美满足这些需求:要么实时性不够,要么查询太慢,要么存储成本太高,要么…
"等等,我们何不试试Doris和Paimon的组合?"技术负责人小王眼前一亮。
没错,Apache Doris+Apache Paimon的最新湖仓一体化方案,正是为解决这类棘手问题而生。这套方案巧妙地将MPP查询引擎的高性能与LSM-Tree模型的实时写入能力完美结合,犹如一对默契的搭档:
-
数据实时入湖:借助 Paimon 的 LSM-Tree 模型,数据入湖的时效性可以降低到分钟级;同时,Paimon 支持包括聚合、去重、部分列更新在内的多种数据更新能力,使得数据流动更加灵活高效。
-
高性能数据处理分析:Paimon 所提供的 Append Only Table、Read Optimized、Deletion Vector 等技术,可与 Doris 强大的查询引擎对接,实现湖上数据的快速查询及分析响应。
在开源数据生态中,Paimon独辟蹊径,创新性地将数据湖格式与LSM树的优势融为一体。好比是给数据湖装上了"涡轮增压器",让数据流动变得更加自如。而Doris则扮演着"智能大脑"的角色,通过独特的分布式查询优化技术,让每一次数据分析都快如闪电。
只需简单sql语句即可成型:
-- 如下所示,Doris 集群中已经创建了名为 paimon 的 Catalog(可通过 SHOW CATALOGS 查看)
-- 已创建,无需执行
CREATE CATALOG `paimon` PROPERTIES (
"type" = "paimon",
"warehouse" = "s3://warehouse/wh/",
"s3.endpoint"="http://minio:9000"