【大数据专栏】大数据架构

大数据架构

目录

大数据架构

大数据技术架构

应用架构图

​编辑

大数据相关框架

数据源

RDS

Log

File

数据采集

结构化

Sqoop

Datax

Canel

Debezium

非结构化

Apache Flueme

Logstash

Filebeat

数据传输

Kafka

RocketMQ

数据存储

HDFS

Yarm

对象存储

S3/OSS/Blob

列存储

Parquet

数据计算

实时计算

Apache Flink

Apache Spark

Apache Livy

Apache Storm

离线计算

Apache Hive

Apache Pig:

Apache Hbase(Hadoop Database)

Apache Cassandra

Apache Presto

Apache kylin

Cloudera Impala

数据引擎

Apache Druid

StarRocks

Doris

ClickHouse

Kudu

工作流编排

airflow

查询交互

Zeppelin

Jupyter


大数据技术架构

应用架构图

大数据相关框架

数据源

RDS

MySQL、PostgreSQL、Sqlserver等关系型数据库,通常通过Datax、Debezium采集。

Log

结构化文件、日志文件、sdout流等,通常通过Flume,Logstash,Fileat采集。

File

非结构化文件,视频、图片等,通常通过Flume采集,或者直接存入云存储。

数据采集

结构化
Sqoop

Sql to Hadoop,Sqoop依赖于hadoop服务,关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。

Datax

DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

Canel

主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。

Debezium

Debezium可以捕获数据库中所有行级的数据变化(CDC change data capture)并包装成事件流顺序输出。 

非结构化
Apache Flueme

Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。实时读取服务器本地磁盘的数据,将数据写入到HDFS.

Logstash

Logstash 是 Elastic Stack 的核心组件之一,它是一个强大的服务器端数据处理管道,可以从多个来源采集数据,转换数据,然后将数据发送到各种存储库中。Logstash 特别适用于日志数据的处理,它可以处理来自各种数据源的信息,无论是结构化还是非结构化的数据。

Filebeat

 Filebeat是一个轻量级的日志采集工具,用于转发和汇总服务器、虚拟机和容器的日志。它从输入源读取日志,通过Harvester逐行读取,然后输出到目标如ElasticSearch。

数据传输

Kafka

MQ

RocketMQ

阿里

数据存储

HDFS

Hadoop中的

Yarm

Hadoop中的资源调度

对象存储
S3/OSS/Blob

云服务提供的对象存储

列存储
Parquet

是一种开源的列式存储数据文件格式,与简单的CSV格式行示存储相比,存储占用空间更小,查询性能更高,大幅降低存储成本

数据计算

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值