
Big Data Architecture
文章平均质量分 84
大数据平台架构相关
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
大数据平台及数仓的通用架构和技术体系
一、大数据架构技术体系1 数据传输层Sqoop:支持RDBMS和HDFS之间的双向数据迁移,通常用于抽取业务数据库(比如MySQL、SQLServer、Oracle)的数据到HDFS.Cannal:阿里开源的数据同步工具,通过监听MySQL binlog,实现增量数据订阅和近实时同步。Flume:用于海量日志采集、聚合和传输,将产生的数据保存到HDFS或者HBase中。Flume + Kafka:满足实时流式日志的处理,后面再通过Spark Streaming等流式处理技术,可完成日志的实时解原创 2021-01-15 11:36:55 · 1716 阅读 · 0 评论 -
迄今4代大数引擎概述
在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷。出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。从第1代的MapReduce,到第2代基于有向无环图的Tez,第3代基于内存计算的Spark,再到第4代的Flink。第一代: Ha原创 2020-12-14 21:11:11 · 264 阅读 · 0 评论 -
互联网数仓之:Lambda架构 vs Kappa架构
一、Lambda 架构Lambda 架构由Storm的作者Nathan Marz提出,其设计目的在于提供一个能满足大数据系统关键特性的架构,包括高容错、低延迟、可扩展等。其整合离线计算与实时计算,融合不可变性、读写分离和复杂性隔离等原则,可集成Hadoop, Kafka, Spark,Storm等各类大数据组件。Lambda 架构可分解为三层Layer,即Batch Layer, Real-Time(Speed) Layer和Serving Layer。Batch Layer : 存储数据集,在数据原创 2020-05-26 20:19:53 · 1877 阅读 · 0 评论 -
大数据查询分析引擎比较
1、常见方案比较首先,Hive/SparkSQL 在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。其次,ES (Elasticsearch+Logstash+Kibana)是一个功能很强大的系统,在中等数据规模场景下能较好地满足需求,但是在万亿和更大的数据规模场景下,数据的写入性能和查询性能都遇到了很大的瓶颈。最后,Kylin 和 Druid 功能比较类似,考虑到 Druid 采用 OLAP 架构,数据时效性相对于 Kylin原创 2020-05-19 11:49:26 · 2396 阅读 · 0 评论