大数据中技术的定义和特点

原创已于 2022-11-20 10:33:02 修改 · 731 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2022-11-19 10:02:33 首次发布

Linux

是什么
- 类Unix操作系统，当前用的版本是centos_7.5版本
特点
- 跨平台的硬件支持
- 可靠的安全性、良好的稳定性
- 多用户多任务

Redis

是什么
- 开源的、可基于内存亦可持久化的日志型、K-V数据库
特点
- 读写速度非常的快
- 提供了丰富的数据结构
- 虽然数据的读取都存在内存当中，但是最终它是支持数据持久化到磁盘当中

HDFS

是什么
- 分布式文件系统，解决了海量数据的存储问题
特点
- 高可用行，容错性强
- 流式读取，移动计算而非移动数据
- 弹性存储

MapReduce

是什么
- 一种编程模型，是面向大数据并行处理的计算模型、框架和平台
特点
- 分布可靠
- 封装了实现细节
- 提供跨语言编程的能力

Yarn

是什么
- Hadoop的资源管理器
特点
- 资源管理与计算框架解耦设计
- 集群内数据共享一致
- 运维成本显著下降，只需运维一个集群，同时运行满足多种业务需求的计算框架
作用
- 对集群资源进行整合，让我们资源得到最大化利用。
- 使不同性能的机器的工作能够协调统一

Hive

是什么
- 是用来构建数据仓库的，为了对海量数据的分析
特点
- 通过类SQL来分析大数据
- 能够存储较大数据集，对数据完整性、格式要求不高
- Hive语句最终会生成MR任务去计算，所以适用于离线数据分析

Spark

是什么
- 专为大规模数据处理而设计的快速通用的计算引擎
- 其中SparkStreaming是微批处理的流式实时计算框架
特点
- 速度快，是在内存计算
- 易用性，80多个高级运算符
- 跨语言
- 通用性

Kafka

是什么
- 高吞吐量的分布式、支持分区的、多副本的、基于zookeeper协调的消息系统
特点
- 稳定性高，通过O(1)的磁盘数据结构提供信息的持久化
- 高吞吐量，低延迟
- 高并发，容错性好

Hbase

是什么
- 提供对海量数据的随机实时读/写访问，分布式面向列的数据库
特点
- 高并发、简单条件、随即查询，不擅长join类操作，半结构化、非结构化数据存储

Flink

是什么
- 开源流式处理框架，用Java和Scala编写的框架和分布式处理引擎
特点
- 低延迟，高吞吐良，编程效率高，容错性高

Flume

是什么
- ⼀个⾼可⽤的，⾼可靠的，分布式的海量⽇志采集、聚合和传输的系统
特点
- 可以将应用产生的数据存储到任何集中存储器中
- Flume的管道是基于事务的，保证了数据在传送和接收时的一致性
- 当收集信息遇到峰值时，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。