1.需求分析
2.Lambda架构 & Kappa架构
2.1.Lambda架构
Lambda 架构总共由三层系统组成的:批处理层(Batch Layer),速度处理层(Speed Layer),以及用于响应查询的服务层(Serving Layer)。

更详细的架构图:

批处理层:
使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的,能够修复任何错误,然后更新现有的数据视图。输出通常存储在只读数据库中,更新则完全取代现有的预先计算好的视图。
速度层:
通过提供最新数据的实时视图来最小化延迟。速度层所生成的数据视图可能不如批处理层最终生成的视图那样准确或完整,但它们几乎在收到数据后立即可用。而当同样的数据在批处理层处理完成后,在速度层的数据就可以被替代掉了。
总

本文探讨了数据处理架构中的Lambda和Kappa架构。Lambda架构包括批处理层、速度层和服务层,确保数据准确性和时效性,但维护复杂。Kappa架构则简化为仅保留速度层,依赖数据重处理来应对变化。根据业务需求,选择Lambda(机器学习,高准确性)或Kappa(实时响应)更为合适。数据分层架构则有助于清晰数据结构、追踪数据血缘、减少重复开发和提高数据准确性。
最低0.47元/天 解锁文章
4522

被折叠的 条评论
为什么被折叠?



