Linux
- 是什么
- 类Unix操作系统 ,当前用的版本是centos_7.5版本
- 特点
- 跨平台的硬件支持
- 可靠的安全性、良好的稳定性
- 多用户多任务
Redis
- 是什么
- 开源的、可基于内存亦可持久化的日志型、K-V数据库
- 特点
- 读写速度非常的快
- 提供了丰富的数据结构
- 虽然数据的读取都存在内存当中,但是最终它是支持数据持久化到磁盘当中
HDFS
- 是什么
- 分布式文件系统,解决了海量数据的存储问题
- 特点
- 高可用行,容错性强
- 流式读取,移动计算而非移动数据
- 弹性存储
MapReduce
- 是什么
- 一种编程模型,是面向大数据并行处理的计算模型、框架和平台
- 特点
- 分布可靠
- 封装了实现细节
- 提供跨语言编程的能力
Yarn
- 是什么
- Hadoop的资源管理器
- 特点
- 资源管理与计算框架解耦设计
- 集群内数据共享一致
- 运维成本显著下降,只需运维一个集群,同时运行满足多种业务需求的计算框架
- 作用
- 对集群资源进行整合,让我们资源得到最大化利用。
- 使不同性能的机器的工作能够协调统一
Hive
- 是什么
- 是用来构建数据仓库的,为了对海量数据的分析
- 特点
- 通过类SQL来分析大数据
- 能够存储较大数据集,对数据完整性、格式要求不高
- Hive语句最终会生成MR任务去计算,所以适用于离线数据分析
Spark
- 是什么
- 专为大规模数据处理而设计的快速通用的计算引擎
- 其中SparkStreaming是微批处理的流式实时计算框架
- 特点
- 速度快,是在内存计算
- 易用性,80多个高级运算符
- 跨语言
- 通用性
Kafka
- 是什么
- 高吞吐量的分布式、支持分区的、多副本的、基于zookeeper协调的消息系统
- 特点
- 稳定性高,通过O(1)的磁盘数据结构提供信息的持久化
- 高吞吐量,低延迟
- 高并发,容错性好
Hbase
-
是什么
-
提供对海量数据的随机实时读/写访问,分布式面向列的数据库
-
-
特点
-
高并发、简单条件、随即查询,不擅长join类操作,半结构化、非结构化数据存储
-
Flink
- 是什么
- 开源流式处理框架,用Java和Scala编写的框架和分布式处理引擎
- 特点
- 低延迟,高吞吐良,编程效率高,容错性高
Flume
- 是什么
- ⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、 聚合和传输的系统
- 特点
- 可以将应用产生的数据存储到任何集中存储器中
- Flume的管道是基于事务的,保证了数据在传送和接收时的一致性
- 当收集信息遇到峰值时,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据

被折叠的 条评论
为什么被折叠?



