大数据

本文深入探讨了大数据的概念,即无法用常规软件工具处理的海量、高增长率和多样化的信息资产。重点介绍了大数据处理的核心技术,包括分布式存储和计算,以及Hadoop、HDFS、MapReduce等成熟框架的作用和应用。

大数据

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

处理海量数据的核心技术

  1. 海量数据的存储:分布式
  2. 海量数据的计算:分布式

分布式的复杂程度比单机版高很多!运用多态及其一起工作 解决问题

存储和计算成熟的框架

  1. 存储:
    1. HDFS:分布式文件系统(hadoop的存储框架)
    2. HBASE:分布式数据库系统(对HDFS的二次封装)
    3. KAFKA:分布式消息缓存系统
  2. 计算框架:
    1. MapReduce:离线计算框架(hadoop的计算框架)
    2. Spark:离线计算框架(hadoop的计算框架)
    3. Storm:实时流式计算
  3. 计算框架:
    1. Hive:数据仓库工具
    2. Flume:数据采集
    3. Sqoop:数据迁移

Hadoop

Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用行,二是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障

用户可以在不了解分布式的底层细节而开发分布式程序

用户需要充分的利用集群的为例进行高效的运算和存储

Hadoop的核心组件
  1. 分布式文件系统:HDFS——实现存储在多台服务器上
  2. 分布式运算编程框架:MapReduce——实现在很多台机器的分布式并行计算
  3. 分布式资源调度平台:Yarn——调度大量的MapReduce程序,并且合理分配运算资料
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值