Frist day
工具
vmware15
Linux centos7.5
Hadhoop3.2.1
Hive3.1.2
SpringBoot
Echart
zk3.4.5
架构
- 编码[内存]
- 磁盘(textfile xml json)
- RDBMS(mysql oracle)
- 分布式、集群 (nosql)
- Hadhoop

数仓架构
离线:批计算——攒了一批数据、计算一次
- 数据来源
(1)业务数据【RDBMS】
(2)行为数据【行为日志】
(3)爬虫数据【api】
(4)第三方交易【api】 - 数据采集
(1)mr
(2)spark
(3)flink
3.数仓搭建
(1)Hive
4.业务流程

实时:流计算——来一次计算一次
1.数据来源
(1)业务数据【RDBMS】
(2)行为数据【行为日志】
(3)爬虫数据【api】
(4)第三方交易【api】
2.缓冲
(1)kafla
3.存储
(1)redis
(2)hbase
(3)sprakstreaming
(4)flink
(5)blink
4.分析
(1)olap分析引擎

本文介绍了大数据实训中的工具和架构,包括vmware、Linux、Hadoop、Hive、Spark等,并探讨了离线批处理和实时流计算的数据来源、缓冲、存储、分析及展示。重点涉及数据采集工具如MR、Spark、Flink,以及实时数据存储如Redis、HBase和流处理框架如Spark Streaming、Flink。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



