
分布式系统
文章平均质量分 93
Yu Liebing
这个作者很懒,什么都没留下…
展开
-
Flink最佳实践 - Watermark原理及实践问题解析
原文链接: Flink最佳实践 - Watermark原理及实践问题解析 - Liebing’s HomepageWatermark在Google的The Dataflow Model论文中被首次提出, 它在基于Event Time的流处理中具有重要作用, 是一种平衡计算结果准确性和延迟的机制. 虽然Watermark的概念不难理解, Flink中也有完善的Watermark策略, 但是在实际场景中生成合理的Watermark却并非那么简单, 在并行流下更是可能会出现多种问题.本文在简单介绍Wate.原创 2022-04-30 16:58:46 · 2203 阅读 · 0 评论 -
论文阅读 - Lakehouse A New Generation of Open Platforms
原文链接: 论文阅读 - Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics - Liebing’s Homepage本文是对Databricks的Lakehouse(湖仓一体)论文(Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analy原创 2022-04-21 11:36:43 · 498 阅读 · 0 评论 -
HBase Bulk Loading的两种方法
关于HBase bulk loading原理的详细解析及完整案例可参考HBase Bulk Loading: What, Why and How通过MapReduce进行bulk loading存在效率低下的问题, 如果数据预处理无法在一个Job中完成, 还需要分解为多个Job. 本文介绍使用Spark进行HBase bulk loading的两种方法.基于Spark的bulk loading...原创 2020-03-15 22:12:52 · 566 阅读 · 0 评论 -
HBase自定义过滤器
本文最新更新, 请访问作者个人主页, 后续也会更新一些HBase高级特性相关的文章.本文首先结合HBase过滤器部分的源码, 讲述HBase过滤器抽象基类Filter中各个函数的作用. 最终给出一个简单的自定义过滤器的案例, 在此基础上分析了Filter中各个方法的执行流程, 读者在理解该案例的基础上可以编写任何个性化的过滤器. 本文涉及的源码基于HBase 1.4.x这一Stable Rele...原创 2020-03-09 14:06:03 · 653 阅读 · 0 评论 -
拜占庭将军问题(The Byzantine Generals Problem)
注: 该博客后续将不再更新, 最新版本请见本人个人主页.拜占庭将军问题(The Byzantine Generals Problem)提供了对分布式共识问题的一种情景化描述, 由Leslie Lamport等人在1982年首次发表. 论文同时提供了两种解决拜占庭将军问题的算法:口信消息型解决方案(A solution with oral message);签名消息型解决方案(A solut...原创 2020-02-15 21:09:42 · 1170 阅读 · 0 评论