大数据中技术的定义和特点

Linux

  • 是什么
    • 类Unix操作系统 ,当前用的版本是centos_7.5版本
  • 特点
    • 跨平台的硬件支持
    • 可靠的安全性、良好的稳定性
    • 多用户多任务

Redis

  • 是什么
    • 开源的、可基于内存亦可持久化的日志型、K-V数据库
  • 特点
    • 读写速度非常的快
    • 提供了丰富的数据结构
    • 虽然数据的读取都存在内存当中,但是最终它是支持数据持久化到磁盘当中

HDFS

  • 是什么
    • 分布式文件系统,解决了海量数据的存储问题
  • 特点
    • 高可用行,容错性强
    • 流式读取,移动计算而非移动数据
    • 弹性存储

MapReduce

  • 是什么
    • 一种编程模型,是面向大数据并行处理的计算模型、框架和平台
  • 特点
    • 分布可靠
    • 封装了实现细节
    • 提供跨语言编程的能力

Yarn

  • 是什么
    • Hadoop的资源管理器
  • 特点
    • 资源管理与计算框架解耦设计
    • 集群内数据共享一致
    • 运维成本显著下降,只需运维一个集群,同时运行满足多种业务需求的计算框架
  • 作用
    • 对集群资源进行整合,让我们资源得到最大化利用。
    • 使不同性能的机器的工作能够协调统一

Hive

  • 是什么
    • 是用来构建数据仓库的,为了对海量数据的分析
  • 特点
    • 通过类SQL来分析大数据
    • 能够存储较大数据集,对数据完整性、格式要求不高
    • Hive语句最终会生成MR任务去计算,所以适用于离线数据分析

Spark

  • 是什么
    • 专为大规模数据处理而设计的快速通用的计算引擎
    • 其中SparkStreaming是微批处理的流式实时计算框架
  • 特点
    • 速度快,是在内存计算
    • 易用性,80多个高级运算符
    • 跨语言
    • 通用性

Kafka

  • 是什么
    • 高吞吐量的分布式、支持分区的、多副本的、基于zookeeper协调的消息系统
  • 特点
    • 稳定性高,通过O(1)的磁盘数据结构提供信息的持久化
    • 高吞吐量,低延迟
    • 高并发,容错性好

Hbase

  • 是什么

    • 提供对海量数据的随机实时读/写访问,分布式面向列的数据库

  • 特点

    • 高并发、简单条件、随即查询,不擅长join类操作,半结构化、非结构化数据存储

Flink

  • 是什么
    • 开源流式处理框架,用Java和Scala编写的框架和分布式处理引擎
  • 特点
    • 低延迟,高吞吐良,编程效率高,容错性高

Flume

  • 是什么
    • ⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、 聚合和传输的系统
  • 特点
    • 可以将应用产生的数据存储到任何集中存储器中
    • Flume的管道是基于事务的,保证了数据在传送和接收时的一致性
    • 当收集信息遇到峰值时,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值