
Doris
文章平均质量分 88
weixin_44166276
这个作者很懒,什么都没留下…
展开
-
字段级血缘分析就是一个伪需求
但是字段只是表的一个部分,而数据仓库的表不一定都有业务主键,并且数据仓库的数据流动是逐层聚合的,越往上的逻辑越抽象,越抽象越难以溯源。作为管理者,看到了表级血缘,肯定是不满意的,一个简单的逻辑包含了十几张表,根本看不出来里面的逻辑来,能不能打开黑箱,进一步透视一下?但是领导是不会接受的,我当领导就是为了不看代码的,为了让开发过程可视化的,只有可视化的东西才能满足管理要求。表级数据血缘可以大概知道,一个目标表的数据会受到哪些上游表的影响,这个影响有可能是直接的,有可能是间接的,也有可能毫无影响。原创 2023-07-24 23:23:02 · 707 阅读 · 0 评论 -
Doris数仓的4大特点,一篇讲明白
一个查询在MPP集群中执行时,会拆成一个树状的执行树,这棵树的执行由Coordinator来协调执行,树的叶子节点也叫计划片断(PlanFragment),每一个PlanFragment分配给一个BE节点的查询执行器来执行,这就是查询执行器模块的作用。而Partition级别的缓存会智能地将SQL结果中不同分区的结果数据缓存起来,之后的查询,可以利用已缓存分区的数据加上新分区实时查询的数据得到最终的结果,从而降低重复数据的实时查询需求,减少对系统资源的消耗。如果只部署一个FE,则FE默认就是Leader。原创 2023-07-22 10:23:46 · 796 阅读 · 0 评论 -
既快又好还省,实时数仓新选择——Doris
这种加工虽然可以做到数据的秒级延迟,但是牺牲了数据的准确性和数据分析维度,高度聚合的数据虽然可以满足一些场景的使用,但是无法进一步分析和深挖数据价值。但是随着业务的发展和技术的成熟,我们不再满足于今天看昨天的数据,而是想要今天就看到今天的数据,于是就有了实时数仓的概念。它的目标是将数据的捕获、处理和分析的速度提高到接近实时的水平,以支持实时决策和洞察。架构最大的优点是仅需一套代码,可以同时完成流式数据加工和批量数据加工,最大的问题是批量数据加工的能力会低于离线批处理,因此历时数据的回溯时长存在不确定性。原创 2023-07-22 09:34:10 · 341 阅读 · 0 评论 -
特步集团基于 Apache Doris 的零售数据仓库项目实践
特步,飞一般的感觉原创 2022-04-28 08:54:24 · 412 阅读 · 0 评论